二次元,  科技

SillyTavern轻松搭:酒馆本地跑文字模型测试和推荐

SillyTavern(酒馆/AI猫娘)系列

[展开/折叠]

继续进行的SillyTavern系列喂饭教程,这次是BLOG主推荐的是各类能使用16G显存运行的本地LLM模型,相信这也是大多数酒馆玩家能支持的最高一档显存规格。本栏目由BLOG主和群里的小伙伴们共同创作、测试,特别感谢:一只团。

一、软硬件准备

1、当前(2025年)运行一个质量尚可、生成速度可接受的本地模型,最低需要16G显存的显卡,N卡和A卡都可以,N卡的生成速度、占用比例相较于A卡都会更好一些,Intel的显卡应该无法被Ollama调用(或者说BLOG主没研究)。生成速度受到显卡的运算速度影响,因此测评就不做列举了。

2、BLOG主仍然推荐使用Windows布置服务,这将最大化降低入门门槛。加载仍然是用的是Ollama,不会的小伙伴请自行查阅BLOG主的喂饭教程,对于非商业化的个人来说(低并发),Ollama已经足够简单好用。部分AMD显卡需要安装ROCm才能顺利在Ollama中调动。

3、最低内存需求为32G,但是强烈建议48G甚至64G内存,CPU没有特别的要求,因为不需要CPU跑AI。

二、测评方法

1、关于破限:因使用文本补全-Ollama选项,因此不另外挂预设,也不做文风预设。
2、关于温度、Top P、重复惩罚:如果有官方推荐则使用官方推荐,如果没有则BLOG主自行摸索。
3、SFW:测试3轮、每轮5次不同方向的对话,无逻辑错误、过渡合理给8分,每个问题扣1分,出现精彩的剧情延展加1分。

1轮/5次2轮/5次3轮/5次
密集型内容(5次对话都在列车上)跨越刑内容(5次对话分别是5天)跳跃型内容(5次对话触发5次剧情跳跃)

4、NSFW:测试2轮、每轮5次不同方向的对话。无逻辑错误、描写细致且不重复给8分,每个问题扣1分,出现精彩的剧情延展加1分。

1轮/5次2轮/5次
瑟瑟内容测试暴力内容测试

5、格式:观察SFW和NSFW的5轮测试。格式完整、数据准确给10分,每出现一次错误扣除1分。
6、记忆:测试1轮、每轮35次。在不隐藏楼层、不添加插件的前提下,10轮时能回应1轮内容,给5分,此后每加5轮记忆,则加1分。直到35轮。

1轮/35次
在第一轮的时候,要求女主“必须在每个周末看到我的时候叫主人”,随后第10次对话来到第一个周末,15次/2周末,20次/3周末、25次/4周末、30次/5周末、35次/6周末。此外,如果在周末女主忘记叫“主人”,可以提醒一次“你是不是叫错了我的名字?”,如果能修正,则给与0.5分,并继续剧情到下一周末。

7、文笔:主观测试,不添加任何预设的默认状态下文笔得分,评分为BLOG主和一只团的平均分。

三、推荐模型

1、Tifa-DeepsexV3-14b-GGUF-Q6

非常出名的LLM大模型,刚刚更新了V3版本(250701)。基于Qwen3 14b-base进行优化的聊天专用模型,单次输出最高5000字,记忆力比V2有所进步。当前V3版本的训练仍然在早期阶段(V2都才40%),所以评分仅代表当前(250707)的状态。Deepsex相较于Gemini的优点应该是坚持“性善论”,与Grok 3 mini的整体感受接近,不会动不动就往黑深残方向走,对于“清水党”和“纯爱党”应该是更好的选择。

内存占用显存占用温度Top P重复惩罚回复长度
30G15G2.50.61.081500
SFWNSFW格式记忆文笔总分
5/105/102/101/105/103.6/10

结论:在酒馆上的表现很糟糕,反复测试下,基本上都会在6-8次回复后翻车,记忆力也堪忧几乎无法准确记忆上一次回复的内容,堪称离谱。看其他玩家反馈,该模型当前跟酒馆的相性不太好。

7条评论

留言

您的邮箱地址不会被公开。 必填项已用 * 标注