分享一篇Datawhale朋友刘聪NLP的开源成果,希望可以帮助大家。
话不多说,先放数据下载链接。
HF:
https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k
MS:
https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k
该数据集为
中文开源蒸馏满血R1的数据集
,数据集中不仅包含math数据,还包括大量的通用类型数据,
总数量为110K。
为什么开源这个数据?
R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但之前群里问,貌似中文数据较少,基本上开源的R1蒸馏数据集都是英文数据,或者是非满血蒸馏数据。
这不就来了嘛!!!
其实对于有机器人的人来说,其实110K数据蒸馏也蛮快的,但巧妇难为无米之炊,大多数人可能是没有那么多资源自己本地部署一个满血版R1,这也是为什么很多蒸馏数据用的32B、7B等进行蒸馏的原因。
开这个数据,就是希望对大家有用,反正无论是做纯SFT,还是复现R1,都要有数据嘛!!
但要说的一点是,因为有很多通用数据(R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集),所以
数据的整体长度可能没那么长,大家见谅哈
!等有机会,我再开点超长数据的(机器在哭~)。
该中文数据集中的数据分布如下:
-
-
-
-
General:共计58573,包含弱智吧、逻辑推理、小红书、知乎、Chat等。
数据集蒸馏细节
数据的prompt源来自: