HIFI从入门到火化系列

[展开/折叠]

HIFI入门Q&A
面向新手常见问题的快速解答
如何判断/描述音质的好坏？
浅析影响音质的各个环节，了解音频的特质
什么是DAC？什么是解码器？
深入解析DAC/解码器之间的区别
各数字音频格式、技术的简单介绍
数字音频格式一网打尽
蓝牙编码SBC、APTX、AAC、LDAC都是啥？
一文看懂蓝牙各个编码哪个好？
由浅入深，理解频响曲线/瀑布图
快速了解如何看懂2D和3D频谱图
如何选购HIFI产品？如何甄别有用的信息？
HIFI产品选购实战、避坑指南
如何选择桌面音箱？
从0开始选购桌面音箱
跟攒DIY PC一样攒DIY HIFI
HIFI全系统攒机流程
听不出MP3、无损、HIRES区别？试一下金耳朵测试吧
大佬们常说的金耳朵测试来了！
推力的计算和科普
耳机推力够不够？专用计算器来帮你
DIY高性能音乐服务器
自己动手制作PC CORE，以及音质影响的探索
网线的选择和探讨
探讨网线对音质的影响
关于HIFI交换机的原理和探索
最近火热的HIFI交换机原理解析
玄学中的玄学，地盒对比测试
关于多个品牌地盒的实际对比测评
关于焊锡的对比
探索DIY线材不同焊锡之间的声音差异
从2元到1380元的保险丝同台对比
大量不同型号/A数保险丝之间的对比
线圣钻石/线世界白金星7/W4S/咸鱼手作IIS/HDMI线对比测试
多个HIFI品牌HDMI线材声音对比
USB线如何影响音质
USB线材选择和对音质影响的探索
从SATA数据线开始，聊聊DIY线材的乱象
深入了解HIFI SATA线材

古典日记系列目录

[展开/折叠]

如何欣赏古典音乐——写在一切的开端（一）
跟着BLOG主脚步一起探索古典音乐的千年故事
教皇的鸽子与千年圣咏——格里高利一世（二）
聆听教会圣咏的发展，领悟宗教音乐的特色
萌芽的音乐，隐秘的史诗——纪尧姆·迪费（三）
聆听文艺复兴初期技巧与感性融合的奠基者故事
月光骑士与宫廷诗人——吉尔·班舒瓦（四）
聆听勃艮第乐派跨越千年的细腻抒情风格
变革前夜的明灯——约翰内斯·奥克冈（五）
勃垦第乐派最后一位大师，法兰德乐派的奠基者

十首最感动我的歌曲系列

[展开/折叠]

2019年十首感动我的歌曲
本年度最喜欢的歌曲是Akie秋绘演唱的心拍数，温柔中带有着难以言说的深情和依恋
2020年十首感动我的歌曲
本年度最喜欢的歌曲是Lạc trôi，为了找到这首歌还发生了一段令人印象深刻的小故事
2021年十首感动我的歌曲
本年度最喜欢的歌肯定是Radiant，作为明日方舟剧本巅峰之一，证明了二游也可以讲好故事
2022年十首感动我的歌曲
今年最喜欢的是β受体阻滞剂与星辰，长长的歌声中，融入的是同人音乐最纯真的喜爱
2023年十首感动我的歌曲
年末听到大梦，那种从心底里产生的触动很难言表，或许是这个时代独特的印记
2024年十首感动我的歌曲
今年最重要的音乐未竟，不仅代表着中国电子游戏行业前路未竟，也代表着中国玩家的初心从未偏离

HTML小工具合集

[展开/折叠]

耳机推力需求计算器
科学的耳机推力计算工具
QQ音乐&网易云音乐外链生成工具
省去麻烦的转换，一键生成外链工具
各类文章目录生成工具
一键生成简洁、美观的目录，还支持重复导入编辑
文章便签生成工具
不影响文章阅读流畅性的前提下插入知识点

音乐行业分析系列

[展开/折叠]

由数播及CD界面漫谈音乐行业
2020年行业观察分析，浅析数字播放及其对音乐产业的影响
破除HIFI神话，回归音乐本质
2025年针对HIFI消费品行业的深入观察和分析
全球音乐报告2025深入解读
2025年行业分析报告，针对IFPI最新发布的GMR报告进行深入分析

WIN-NAS专题

[展开/折叠]

从零开始搭建自己的流媒体服务器
EMBY流媒体服务搭建教程
EMBY媒体资源库进阶刮削方案
媒体资源刮削方案
EMBY特殊影视资源刮削方案
瑟瑟的刮削方案
自建音频服务器
Navidrome音频流媒体服务搭建教程
在线漫画/小说库搭建
Komga&PicACG的漫画库以及calibre小说库建立方案
SillyTavern（酒馆）从入门到精通
酒馆（AI猫娘）傻瓜式搭建教程
Docker&New-API搭建教程
Docker的安装以及轮询API服务搭建教程
从零开始了解本地AI部署
AI文字语言大模型Ollama环境搭建教程

SillyTavern（酒馆/AI猫娘）系列

[展开/折叠]

SillyTavern（酒馆）从入门到精通
喂饭式教学，不可能学不会
手机（Android）安装布置教程
随时随地逗逗猫娘的方法
免费VPS服务器租用和布置教程
通过第三方服务器开设酒馆教程
各种技巧/插件的说明
玩酒馆必看的进阶教程
GPT-SoVITS文本转语音入门教程（含SillyTavern酒馆接入）
AI语音合成，提升沉浸感的好方法
酒馆本地跑文字模型测试和推荐
当前还不太行的本地模型测评

HQPlayer播放器系列

[展开/折叠]

ROON+HQPLAYER超详细教程
PC HIFI最豪华的播放软件组合
ROON+HQPlayer+NAA串流数播/网播完整教程
HIFI串流的完整链路布置教程
用HQPlayer播放QQ音乐/网易云音乐
国内流媒体软件推送方案
HQPlayer embedded （HQPlayer OS）嵌入版使用教程
更极致的PC HIFI专机播放方案
HQPlayer Dither设置详解
最详细的中文HQPlayer Dither设置教程
HQPlayer Filter设置详解
最详细的中文HQPlayer Filter设置教程

HIFI从入门到火化系列

[展开/折叠]

HIFI入门Q&A
面向新手常见问题的快速解答
如何判断/描述音质的好坏？
浅析影响音质的各个环节，了解音频的特质
什么是DAC？什么是解码器？
深入解析DAC/解码器之间的区别
各数字音频格式、技术的简单介绍
数字音频格式一网打尽
蓝牙编码SBC、APTX、AAC、LDAC都是啥？
一文看懂蓝牙各个编码哪个好？
由浅入深，理解频响曲线/瀑布图
快速了解如何看懂2D和3D频谱图
如何选购HIFI产品？如何甄别有用的信息？
HIFI产品选购实战、避坑指南
如何选择桌面音箱？
从0开始选购桌面音箱
跟攒DIY PC一样攒DIY HIFI
HIFI全系统攒机流程
听不出MP3、无损、HIRES区别？试一下金耳朵测试吧
大佬们常说的金耳朵测试来了！
推力的计算和科普
耳机推力够不够？专用计算器来帮你
DIY高性能音乐服务器
自己动手制作PC CORE，以及音质影响的探索
网线的选择和探讨
探讨网线对音质的影响
关于HIFI交换机的原理和探索
最近火热的HIFI交换机原理解析
玄学中的玄学，地盒对比测试
关于多个品牌地盒的实际对比测评
关于焊锡的对比
探索DIY线材不同焊锡之间的声音差异
从2元到1380元的保险丝同台对比
大量不同型号/A数保险丝之间的对比
线圣钻石/线世界白金星7/W4S/咸鱼手作IIS/HDMI线对比测试
多个HIFI品牌HDMI线材声音对比
USB线如何影响音质
USB线材选择和对音质影响的探索
从SATA数据线开始，聊聊DIY线材的乱象
深入了解HIFI SATA线材

古典日记系列目录

[展开/折叠]

如何欣赏古典音乐——写在一切的开端（一）
跟着BLOG主脚步一起探索古典音乐的千年故事
教皇的鸽子与千年圣咏——格里高利一世（二）
聆听教会圣咏的发展，领悟宗教音乐的特色
萌芽的音乐，隐秘的史诗——纪尧姆·迪费（三）
聆听文艺复兴初期技巧与感性融合的奠基者故事
月光骑士与宫廷诗人——吉尔·班舒瓦（四）
聆听勃艮第乐派跨越千年的细腻抒情风格
变革前夜的明灯——约翰内斯·奥克冈（五）
勃垦第乐派最后一位大师，法兰德乐派的奠基者

十首最感动我的歌曲系列

[展开/折叠]

2019年十首感动我的歌曲
本年度最喜欢的歌曲是Akie秋绘演唱的心拍数，温柔中带有着难以言说的深情和依恋
2020年十首感动我的歌曲
本年度最喜欢的歌曲是Lạc trôi，为了找到这首歌还发生了一段令人印象深刻的小故事
2021年十首感动我的歌曲
本年度最喜欢的歌肯定是Radiant，作为明日方舟剧本巅峰之一，证明了二游也可以讲好故事
2022年十首感动我的歌曲
今年最喜欢的是β受体阻滞剂与星辰，长长的歌声中，融入的是同人音乐最纯真的喜爱
2023年十首感动我的歌曲
年末听到大梦，那种从心底里产生的触动很难言表，或许是这个时代独特的印记
2024年十首感动我的歌曲
今年最重要的音乐未竟，不仅代表着中国电子游戏行业前路未竟，也代表着中国玩家的初心从未偏离

HTML小工具合集

[展开/折叠]

耳机推力需求计算器
科学的耳机推力计算工具
QQ音乐&网易云音乐外链生成工具
省去麻烦的转换，一键生成外链工具
各类文章目录生成工具
一键生成简洁、美观的目录，还支持重复导入编辑
文章便签生成工具
不影响文章阅读流畅性的前提下插入知识点

音乐行业分析系列

[展开/折叠]

由数播及CD界面漫谈音乐行业
2020年行业观察分析，浅析数字播放及其对音乐产业的影响
破除HIFI神话，回归音乐本质
2025年针对HIFI消费品行业的深入观察和分析
全球音乐报告2025深入解读
2025年行业分析报告，针对IFPI最新发布的GMR报告进行深入分析

WIN-NAS专题

[展开/折叠]

从零开始搭建自己的流媒体服务器
EMBY流媒体服务搭建教程
EMBY媒体资源库进阶刮削方案
媒体资源刮削方案
EMBY特殊影视资源刮削方案
瑟瑟的刮削方案
自建音频服务器
Navidrome音频流媒体服务搭建教程
在线漫画/小说库搭建
Komga&PicACG的漫画库以及calibre小说库建立方案
SillyTavern（酒馆）从入门到精通
酒馆（AI猫娘）傻瓜式搭建教程
Docker&New-API搭建教程
Docker的安装以及轮询API服务搭建教程
从零开始了解本地AI部署
AI文字语言大模型Ollama环境搭建教程

SillyTavern（酒馆/AI猫娘）系列

[展开/折叠]

SillyTavern（酒馆）从入门到精通
喂饭式教学，不可能学不会
手机（Android）安装布置教程
随时随地逗逗猫娘的方法
免费VPS服务器租用和布置教程
通过第三方服务器开设酒馆教程
各种技巧/插件的说明
玩酒馆必看的进阶教程
GPT-SoVITS文本转语音入门教程（含SillyTavern酒馆接入）
AI语音合成，提升沉浸感的好方法
酒馆本地跑文字模型测试和推荐
当前还不太行的本地模型测评

HQPlayer播放器系列

[展开/折叠]

ROON+HQPLAYER超详细教程
PC HIFI最豪华的播放软件组合
ROON+HQPlayer+NAA串流数播/网播完整教程
HIFI串流的完整链路布置教程
用HQPlayer播放QQ音乐/网易云音乐
国内流媒体软件推送方案
HQPlayer embedded （HQPlayer OS）嵌入版使用教程
更极致的PC HIFI专机播放方案
HQPlayer Dither设置详解
最详细的中文HQPlayer Dither设置教程
HQPlayer Filter设置详解
最详细的中文HQPlayer Filter设置教程

科技

AI蓝皮书：在huggingface上转换/创建不同量化标准的GGUF格式模型

2025年6月12日 /

这是AI蓝皮书系列教程的第四篇，直接承接从零开始了解本地AI部署教程，请确保对上一篇教程已经完全了解，再学习本篇教程！

本教程主要为了解决部分在huggingface上没有提供GGUF格式的量化模型的大模型，通过简单的方式转换成GGUF格式，以便个人用户在Ollama中拉取使用。通过该方法，能一键在线解决99%的huggingface模型在Ollama上的加载问题。另外，使用huggingface必须准备好梯子，这应该不用BLOG主再次细说了吧？

一、找到合适的模型

我们可以通过各种渠道找到自己想要的模型，比如BLOG主在deepseek官网最下方找到这个deepseek-llm-7b-chat模型的项目页面，点击右上角“Use this model”发现并没有提供Ollama的加载链接，证明这个模型并没有做GGUF的量化模型，不能被Ollama一键拉取。

二、使用GGUF My Repo进行在线转换

接下来我们打开GGUF My Repo的链接，首先第一步点击上方黑色的“Sign in with Hugging Face”按钮进行登录。如果还没有注册Hugging Face的朋友，请先注册一个账号。对于玩AI大模型的人来说，这个网站就跟Github一样，未来是你家。

接下来，我们复制需要转换的模型名称/路径。如下图，在模型名称的右面，有一个很小的“Copied”按钮，点击一次就可以复制成功。

接着，将名字复制到“GGUF My Repo”页面的“Hub Model ID”栏目中，很容易就能找到我们需要转换的模型名字。

接下来BLOG主分别介绍几个选项分别代表的意思：

1、Quantization Method (量化方法)

GGUF 是目前 llama.cpp 推荐使用的模型文件格式，也是Ollama中默认支持的格式，如果需要Ollama中直接拉取模型跑起来，那么最简单的方式就是创建GGUF格式的量化模型。在“GGML quantization type”下拉选单中，我们可以看到一堆量化模式：

其中，Q+数字，代表模型的主要权重被量化到不同bit，比如Q4，代表量化为4-bit。第一位后续是K代表的是采用 “K-quant” 系列方法，这是 GGML/GGUF 中较新的、通常效果更好的量化方法。而第二位后续：S、M、L则分别代表“small/middle/large”三个不同的量化尺寸，L模型尺寸最大、推理速度最慢、模型质量效果最好、M适中、S则是模型尺寸最小、推理速度最块、模型质量效果相对最差。具体该采用什么方法、量化到什么精度，请查看上一篇教程：从零开始了解本地AI部署。BLOG主自用的16G显存显卡，最终选择的是最甜点的Q4_K_M。

2、Use Imatrix Quantization (使用重要性矩阵量化)

“Imatrix” (Importance Matrix) 是一种通过分析模型在一组校准数据上的激活值来确定哪些权重对模型性能更重要的方法。启用此选项后，量化过程会更侧重于保护这些重要权重，从而在相同的比特率下可能获得更好的量化后模型质量。

如果更进一步去解释，”Imatrix”会在模型量化之前，使用一个校准数据集 (calibration dataset) 来运行模型。通过分析模型在校准数据上的行为，计算出每个权重对于模型整体性能的“重要性”。这个信息被编码成一个“重要性矩阵”。然后在对模型权重进行静态量化时，这个重要性矩阵会指导量化过程。例如，更重要的权重可能会被分配更多的比特，或者量化误差会优先在不重要的权重上产生，以最大限度地减少对重要权重精度的损害。

跟上面“GGML imatrix quants type”类似，主要对出了首字母“I”，代表使用”Imatrix”重要性矩阵量化。后缀“NL”是一种专门为重要性矩阵设计的量化类型，通常非常高效，能在较小的空间内存储重要性信息，一般我们都会默认选择带有NL的选项。XS/XSS，这两个其实是S的拓展，代表“Extra Small”和“Extra Extra Small”，推理速度会进一步加快。

3、Private Repo

在GGUF My Repo中转换/创建GGUF模型，会视为用户“发布”了一个新模型。Private Repo选项勾选后，可以确保这个模型不对外公开，仅为私人使用。反之不勾选，则会将这个模型在Huggingface社区中公开。

4、Training Data File (训练数据文件)

使用重要性矩阵 (Imatrix) 进行量化时，系统需要一些数据来“校准”或“衡量”模型中不同权重的重要性。这个“训练数据文件”实际上就是指校准数据集 (calibration dataset) 或代表性数据集 (representative dataset)。这部分训练文件，通常需要模型的制作方提供，个人并不能自行制作，因此如果官方没有提供这个训练数据，就不能使用Imatrix 进行量化了。

5、Split Model (分割模型)

这个选项允许你在量化完成后，将生成的单个 GGUF 模型文件分割成多个更小的部分（称为 “shards”）。Hugging Face 通常建议单个文件不要超过 5GB (虽然可以上传更大的，但分片更友好)。如果你的量化后模型非常大（比如超过 5GB 或 10GB），分割成多个小文件可以方便上传和分享，在拉取过程中，遇到网络波动，损失可能也没那么大。

“Max Tensors per File” (每个文件的最大张量数)。一个 GGUF 模型文件内部是由多个张量 (tensors) 组成的，这些张量存储了模型的权重、偏置等参数。这个选项设置了在分割模型时，每个生成的小文件（分片/shard）最多可以包含多少个张量。默认的256就是个比较通用的数值，基本上这个项目不会需要改动。

“Max File Size” (最大文件大小)，这个选项直接控制了每个分割后的小文件的最大体积。这是最常用和最直观的分割控制方式。大多数情况下，如果一个模型太大，会选择4G/4096M进行分割。

最后，如上图，这是BLOG主最后的设置，全部搞定之后，点击“Submit”之后，系统就会自动进行转换。右上角会看到剩余时间进度条（但非常不准）。这时候可以去干点别的事情，等全部内容完成之后，进入个人页面，就可以看到以自己用户名建立的新模型上传到了Huggingface上。点击右上角“Use this model”，就可以看到Ollama拉取命令，接着就可以根据BLOG主之前的教程，使用Ollama加载使用了！

三、总结

其实BLOG主还挺奇怪的，全网都没有提及这个最简单、也是最实用的，将HuggingFace模型转换GGUF的方法，大多数搜索出来的教程都是使用llama.cpp进行转换，对于很多刚接触AI大模型的朋友来说，操作繁琐并不友好。而使用HuggingFace提供的方案，不仅更为简单方便，其稳定性也有充足的保障。

您可能也喜欢

私人推荐：Minecraft服务器（已经失效啦）

WINNAS轻松搭：在线漫画/小说库搭建

科技分享：iPad Mini 6/iPad Air 5生产力测评

留言 取消回复

留言取消回复