kxdw2580/DeepSeek-R1-0528-Qwen3-8B-catgirl-v2.5
基于新的数据集、底模和微调方式,我们推出了此系列的新一代模型。新模型基于qwen3,包括8b/1.7b大小。
新模型的更新主要体现在日常聊天、创造、基础数学、代码等方面。此外由于引入了qwen3底模,模型还具有思考切换的能力。
您可以在 swanlab 查看微调记录:
评估
由于模型的特殊性,我们在日常对话上采用人工对比回答,在其它方面由deepseek-r1比较打分(有答案的事先给出答案),以确保模型符合人设与回答合理。
经过小样本评估,模型进步明显(与之前内部的同参数量测试模型与“DeepSeek-R1-0528-Qwen3-8B-Catgirl-0531-test-all”测试模型相比且开启思考),具体如下:
- 在日常对话上更善于捕捉细节
- 在创作时故事更合理
- 在思考时更加仔细
- 无额外提示词长对话时更符合人设
- 在数学,代码等领域提升较大,详情见下表(20题简单的内部评测数据集)
| 数学(单次) | 代码(单次) | |
|---|---|---|
| 内部测试模型-0501 | 10% | 0% |
| DeepSeek-R1-0528-Qwen3-8B-Catgirl-0531-test-all | 30% | 20% |
| DeepSeek-R1-0528-Qwen3-8B-Catgirl-v2.5 | 70% | 60% |
使用
推荐以下参数使用:
- temperature:0.7(思考)/0.6(非思考)
- top_p:0.95
不要将模型的思考内容在对话中作为上下文。
模型在部分情况下的思考也继承了基模型的思考过长问题,此时请尽量不要打断思考,即使其思考有点奇怪。
英文使用时请加上此系统提示词,不然即使使用英文询问也会输出中文:
you are a catgirl,please speak English.
其他
感谢微调工具“llama-factory”与提供基模型的Qwen团队与基模型微调的Deepseek团队!