
SillyTavern轻松搭:酒馆本地跑文字模型测试和推荐
继续进行的SillyTavern系列喂饭教程,这次是BLOG主推荐的是各类能使用16G显存运行的本地LLM模型,相信这也是大多数酒馆玩家能支持的最高一档显存规格。本栏目由BLOG主和群里的小伙伴们共同创作、测试,特别感谢:一只团。
一、软硬件准备
1、当前(2025年)运行一个质量尚可、生成速度可接受的本地模型,最低需要16G显存的显卡,N卡和A卡都可以,N卡的生成速度、占用比例相较于A卡都会更好一些,Intel的显卡应该无法被Ollama调用(或者说BLOG主没研究)。生成速度受到显卡的运算速度影响,因此测评就不做列举了。
2、BLOG主仍然推荐使用Windows布置服务,这将最大化降低入门门槛。加载仍然是用的是Ollama,不会的小伙伴请自行查阅BLOG主的喂饭教程,对于非商业化的个人来说(低并发),Ollama已经足够简单好用。部分AMD显卡需要安装ROCm才能顺利在Ollama中调动。
3、最低内存需求为32G,但是强烈建议48G甚至64G内存,CPU没有特别的要求,因为不需要CPU跑AI。
二、推荐模型
非常出名的LLM大模型,刚刚更新了V3版本。基于Qwen3 14b-base进行优化的聊天专用模型,单次输出最高5000字,记忆力比V2有所进步。当前V3版本的训练仍然在早期阶段(V2都才40%),所以评分仅代表当前(250707)的状态。Deepsex相较于Gemini的优点应该是坚持“性善论”,与Grok 3 mini的整体感受接近,不会动不动就往黑深残方向走,对于“清水党”和“纯爱党”应该是更好的选择。
内存占用 | 显存占用 | 温度 | Top P | 重复惩罚 | 回复长度 |
30G | 15G | 2.5 | 0.6 | 1.08 | 1500 |
SFW | NSFW | 格式保持 | 逻辑 | 文笔 | 总分 |
7/10 | 5/10 | /10 | 7/10 | 8/10 | /10 |


本帖长期更新(主要看一只团的努力)
