专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？

Datawhale · 公众号 · · 2025-01-27 18:23

正文

Datawhale干货

作 者：Jimmy.DU，Dataw hale成员

在LLM模型post-training中，仅使用 强化学习（reinforcement learning，RL） 提升模型推理能力，不再依赖有监督微调训练（supervised fine-tuning，SFT）。
证明了LLM模型具有自行探索 长思维链（chain-of-thought，COT） 的能力。

核心问题： 当前的post-training流程对于 大量监督数据 的依赖，监督数据的收集非常耗时：

解决方案： 探索在 没有任何监督数据 的情况下，提升LLM模型的推理能力：

成果：

推出 DeepSeek-R1-Zero 模型， 无需任何监督微调数据 ，仅通过 RL 进行模型的post-training，在AIME2024、MATH-500等多个Benchmark中达到并且超过OpenAI-o1-0912的水平。

DeepSeek-R1-Zero展示出了 自我进化（self-evolution） 能力，在没有监督数据的情况下，随着强化学习训练进程的深入，模型的思考时间在增加，并自发出现了诸如 reflectio （反射，模型重新审视和重新评估其先前步骤）以及 探索解决问题的替代方法 等更加复杂的行为：

在DeepSeek-R1-Zero的训练过程中出现了 Aha Moment（顿悟时刻） ，代表RL有可能在人工系统中解锁新的智能水平，为未来更加自主和自适应的模型铺平道路。

核心问题：

解决方案：

Reasoning-oriented Reinforcement Learning： 完成冷启动数据微调后，采用与DeepSeek-R1-Zero一致的强化学习训练过程，同时针对DeepSeek-R1-Zero存在的 语言混合 ，导致模型输出可读性差的问题，在RL训练期间引入 语言一致性奖励（目标语言单词在 CoT 中的比例） ，将推理任务的准确性和语言一致性的奖励结合起来，直接相加作为最终的奖励。
Rejection Sampling and Supervised Fine-Tuning： 当2中的RL过程趋于收敛时，利用checkpoint生产用于下一轮训练的SFT数据。与1中的冷启动数据区别在于， 冷启动数据针对推理能力提升 ，此阶段 既包含用于推理能力提升的600k数据，也包含200k推理无关的数据 。使用上述约800k样本的精选数据集继续对DeepSeek-V3-Base进行了两个epoch的微调。
Reinforcement Learning for all Scenarios： 为了进一步对齐模型和人类偏好，设计了二级强化学习阶段以同时提高模型的 helpfulness（有用性） 和 harmlessness（无害性） ：

基于DeekSeek-R1，文中仅使用SFT对小模型（Qwen、Llama等）进行蒸馏训练得到的模型，性能全面优于GPT-4o-0513等大参数量非推理模型：

同时，直接对小模型进行 DeepSeek-R1-Zero 同款的强化学习，得到的DeepSeek-R1-Zero-Qwen-32B模型性能 弱于蒸馏模型 ：

Tips：文中提到将RL应用于蒸馏模型会产生显著的进一步收益，应用方法文中没有详细说明，留给学术界去进一步探索。

作者：Jimmy.DU，Datawha le成员

一起点赞三连 ↓