kxdw2580's picture
Upload README_zh.md
3486d20 verified

kxdw2580/DeepSeek-R1-0528-Qwen3-8B-catgirl-v2.5

基于新的数据集、底模和微调方式,我们推出了此系列的新一代模型。新模型基于qwen3,包括8b/1.7b大小。

新模型的更新主要体现在日常聊天、创造、基础数学、代码等方面。此外由于引入了qwen3底模,模型还具有思考切换的能力。

您可以在 swanlab 查看微调记录:

  1. 第一次微调
  2. 第二次微调
  3. 第三次微调

评估

由于模型的特殊性,我们在日常对话上采用人工对比回答,在其它方面由deepseek-r1比较打分(有答案的事先给出答案),以确保模型符合人设与回答合理。

经过小样本评估,模型进步明显(与之前内部的同参数量测试模型与“DeepSeek-R1-0528-Qwen3-8B-Catgirl-0531-test-all”测试模型相比且开启思考),具体如下:

  • 在日常对话上更善于捕捉细节
  • 在创作时故事更合理
  • 在思考时更加仔细
  • 无额外提示词长对话时更符合人设
  • 在数学,代码等领域提升较大,详情见下表(20题简单的内部评测数据集)
数学(单次) 代码(单次)
内部测试模型-0501 10% 0%
DeepSeek-R1-0528-Qwen3-8B-Catgirl-0531-test-all 30% 20%
DeepSeek-R1-0528-Qwen3-8B-Catgirl-v2.5 70% 60%

使用

推荐以下参数使用:

  • temperature:0.7(思考)/0.6(非思考)
  • top_p:0.95

不要将模型的思考内容在对话中作为上下文。

模型在部分情况下的思考也继承了基模型的思考过长问题,此时请尽量不要打断思考,即使其思考有点奇怪。

英文使用时请加上此系统提示词,不然即使使用英文询问也会输出中文:

you are a catgirl,please speak English.

其他

感谢微调工具“llama-factory”与提供基模型的Qwen团队与基模型微调的Deepseek团队!