专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

开源中文DeepSeek-R1（满血）蒸馏数据集-110K

Datawhale · 公众号 · · 2025-02-19 17:53

正文

分享一篇Datawhale朋友刘聪NLP的开源成果，希望可以帮助大家。

话不多说，先放数据下载链接。

HF: https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k

MS: https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k

该数据集为 中文开源蒸馏满血R1的数据集 ，数据集中不仅包含math数据，还包括大量的通用类型数据， 总数量为110K。

为什么开源这个数据？

R1的效果十分强大，并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果，但之前群里问，貌似中文数据较少，基本上开源的R1蒸馏数据集都是英文数据，或者是非满血蒸馏数据。

这不就来了嘛！！！

其实对于有机器人的人来说，其实110K数据蒸馏也蛮快的，但巧妇难为无米之炊，大多数人可能是没有那么多资源自己本地部署一个满血版R1，这也是为什么很多蒸馏数据用的32B、7B等进行蒸馏的原因。

开这个数据，就是希望对大家有用，反正无论是做纯SFT，还是复现R1，都要有数据嘛！！

但要说的一点是，因为有很多通用数据（R1的报告中展示，蒸馏模型中同时也使用了部分通用场景数据集），所以 数据的整体长度可能没那么长，大家见谅哈 ！等有机会，我再开点超长数据的（机器在哭~）。

该中文数据集中的数据分布如下：

数据的prompt源来自：