专栏名称: 架构师

架构师云集，三高架构（高可用、高性能、高稳定）、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流，以及结合互联网技术的架构调整，大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。

聊聊DeepSeek-R1的技术路径

架构师 · 公众号 · · 2025-02-06 22:28

正文

架构师（JiaGouX）

我们都是架构师！
架构未来，你来不来？

Arxiv论文地址：https://arxiv.org/abs/2501.12948ModelScope论文地址：https://modelscope.cn/papers/109508github论文地址：https://github.com/deepseek-ai/DeepSeek-R1/tree/main

DeepSeek-R1本质上给出了模型训练中的长链推理，或复杂推理问题的一种可行路径。可贵的是，在论文中DeepSeek给出了一个非常完整的技术实现路径，还包括了一些失败的尝试。这给其他模型厂商提供了完整的复现方式。我们先看最后的评测结果：

DeepSeek-R1的训练路径是非常简洁的，这和DeepSeek-V2和V3模型积累的训练经验积累存在非常大的关系。

首先我们先明确R1模型的训练目标，这个非常重要：

Our goal is to explore the potential of LLMs to develop reasoning capabilities without any supervised data, focusing on their self-evolution through a pure RL process.

划重点： 探索几乎没有任何监督数据的条件下，模型通过RL训练，自我更新并涌现复杂推理能力的可能性 。

论文中用一句话概括了整体训练过程，我们先放一下原文：

we introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline. Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1- Zero. Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217.

训练路径：

1.先收集了一部分高质量冷启动数据（约几千条），使用该数据fine-tune DeepSeek-V3-Base模型，记为模型A

2.使用A模型用GRPO训练，使其涌现推理能力，收敛的模型记为B

3.使用B模型产生高质量SFT数据，并混合DeepSeek-V3产生的其他领域的高质量数据，形成一个高质量数据集

4.使用该数据集训练原始DeepSeek-V3-Base模型，记为模型C

5.使用C模型重新进行步骤2，但是数据集变为所有领域，收敛后的模型记为D，这个模型就是DeepSeek-R1

6.训练C模型的数据对小模型做蒸馏，效果也非常好

当然，最开始DeepSeek并没有使用冷启动，而是直接对DeepSeek-V3-Base进行了GRPO训练，发现虽然CoT能力提升比较大，但是回复的内容鱼龙混杂，甚至有多个语言同时出现的情况，所以才产生了上面比较标准的训练路径。

DeepSeek-R1的实验有很多贡献，我们列出文章中列出来的：

1.跳过SFT直接使用GRPO做RL，效果一样很好（或者说，只进行冷启动阶段的几千条数据的SFT）。这一发现证明强化学习在LLM训练中的作用比之前预想要大很多，甚至可以取代SFT

个人认为，这一点我们要分开来看，GRPO在少量显卡上的轻量训练比较难涌现比较好的效果，因此如果对Instruct或者Base模型进行垂类训练，SFT仍然是不二之选。

2. RL-采样SFT-RL-蒸馏SFT的pipeline对其他模型训练具有启示作用

3. 较大模型蒸馏的数据用于训练小模型效果比直接从零RL小模型要好。这一点的发现基本说明 数据集本身的好坏对模型训练起决定性作用，或者说人给不了模型需要的数据，模型才给得了模型需要的数据 。换句话说，模型的next-token-prediction具有独特的生成和自我进化方式，该方式和人类给出的提示数据有所不同，而在不同模型间可能是通用的。这一点也基本决定了未来模型的训练中使用优质模型蒸馏的数据集，或模型self-improvement会成为重要的训练路径。

具体实现

GRPO的reward并没有采用PRM，而是使用了基于正则的ORM，其中包括了两个点：

1.评估最终答案是否正确。包含最终结果比对、代码运行结果等

2.格式奖励：模型需要将CoT过程放在之间

疑问：具体的奖励值是怎么定义的？不连续且稀疏的奖励可能导致policy不收敛

上面我们提过，最开始的GRPO是没有冷启动SFT的，产生的模型叫DeepSeek-R1-Zero，其训练结果如下：

Aha Moment of DeepSeek-R1-Zero A particularly intriguing phenomenon observed during the training of DeepSeek-R1-Zero is the occurrence of an “aha moment”. This moment, as illustrated in Table 3, occurs in an intermediate version of the model. During this phase, DeepSeek-R1-Zero learns to allocate more thinking time to a problem by reevaluating its initial approach. This behavior is not only a testament to the model’s growing reasoning abilities but also a captivating example of how reinforcement learning can lead to unexpected and sophisticated outcomes.

说句题外话，这是否可以印证模型的能力提升，只需要预训练后来自于真实世界的正负反馈和模型本身的游走呢？那么现在的模型训练系统的最大问题就是模型和真实世界的交互反馈能力的不足了。

1.冷启动，使用少量示例提示，其中包含长推理链，或者直接提示模型生成带有反思和验证的详细答案，或者收集DeepSeek-R1-Zero 的输出并以可读格式呈现，并通过人工注释进行后期处理以细化结果。从这些数据微调DeepSeek-V3-Base

聊聊DeepSeek-R1的技术路径

正文

请到「今天看啥」查看全文