DeepSeek-R1：通过强化学习激励LLM的推理能力

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-22 00:04

正文

25年1月来自深度求索公司的论文“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”。

本文介绍第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型，无需监督微调 (SFT) 作为初步步骤，表现出卓越的推理能力。通过 RL，DeepSeek-R1-Zero 自然呈现出许多强大推理行为。然而，它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，推出 DeepSeek-R1，它在 RL 之前结合多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上实现与 OpenAI-o1-1217 相当的性能。开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的六个密集模型（1.5B、7B、8B、14B、32B、70B）。其基准性能如下图所示：

近年来，大语言模型 (LLM) 经历快速迭代和演进（Anthropic，2024；Google，2024；OpenAI，2024a），与通用人工智能 (AGI) 的差距正在逐步缩小。

最近，后训练已成为完整训练流程的重要组成部分。事实证明，它可以提高推理任务的准确性、与社会价值观保持一致并适应用户偏好，同时与预训练相比，所需的计算资源相对较少。在推理能力方面，OpenAI o1（OpenAI，2024b）系列模型首次通过增加思维链推理过程的长度来引入推理时间扩展。这种方法在数学、编码和科学推理等各种推理任务中取得显着的改进。然而，有效的测试时间扩展的挑战，仍然是研究界的一个悬而未决的问题。之前已有多项研究探索各种方法，包括基于过程的奖励模型（Lightman，2023；Uesato，2022；Wang，2023）、强化学习（Kumar，2024）以及蒙特卡洛树搜索和波束搜索等搜索算法（Feng，2024；Trinh，2024；Xin，2024）。然而，这些方法都没有达到与 OpenAI o1 系列模型相当的通用推理性能。

先前的研究严重依赖大量监督数据来提高模型性能。本研究即使不使用监督微调 (SFT) 作为冷启动，大规模强化学习 (RL) 也可以显著提高推理能力。此外，通过加入少量冷启动数据可以进一步提高性能。包括：(1) DeepSeek-R1-Zero，它将 RL 直接应用于基础模型，而无需任何 SFT 数据；(2) DeepSeek-R1，它从使用数千个长思维链 (CoT) 示例微调的检查点开始应用 RL。3) 将 DeepSeek-R1 的推理能力提炼到小型密集模型中。

DeepSeek-R1-Zero：基础模型上的强化学习

强化学习在推理任务中表现出显著的有效性，这一点可以从 DeepSeek 之前的研究（Shao，2024；Wang，2023）中看出。然而，这些研究严重依赖于监督数据，而这些数据的收集非常耗时。这里探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力，重点关注它们通过纯强化学习过程的自我进化。

强化学习算法

组相对的策略优化。为了节省强化学习的训练成本，采用组相对的策略优化 (GRPO) (Shao et al., 2024)，它放弃通常与策略模型大小相同的批评模型，而是从组分数估计基线。具体来说，对于每个问题 𝑞，GRPO 从旧策略𝜋_𝜃_𝑜𝑙𝑑 中抽取一组输出 {𝑜_1, 𝑜_2, · · · , 𝑜_𝐺 }，然后通过最大化目标函数来优化策略模型𝜋_𝜃，其中优势的计算根据每个组内输出相对应的一组奖励 {𝑟_1, 𝑟_2, . . . , 𝑟_𝐺 } 。

奖励建模

奖励是训练信号的来源，决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero，采用基于规则的奖励系统，主要包含两种类型的奖励：

• 准确度奖励：准确度奖励模型评估响应是否正确。例如，对于具有确定性结果的数学问题，要求模型以指定的格式（例如，在一个框内）提供最终答案，从而实现可靠的基于规则的正确性验证。同样，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
• 格式奖励：除了准确度奖励模型之外，还采用格式奖励模型，强制模型将其思考过程置于“ ”和“ ”标签（tags）之间。

在开发 DeepSeek-R1-Zero 时，没有应用结果或过程神经奖励模型，因为神经奖励模型在大规模强化学习过程中可能会受到奖励黑客攻击，并且重新训练奖励模型需要额外的训练资源，并且使整个训练流程变得复杂。

DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻（Aha Moment）

DeepSeek-R1-Zero 的性能。如图描绘 DeepSeek-R1-Zero 在整个强化学习 (RL) 训练过程中在 AIME 2024 基准上的性能轨迹。如图所示，随着 RL 训练的进展，DeepSeek-R1-Zero 的性能稳步提升。值得注意的是，AIME 2024 上的平均 pass@1 分数显着提高，从最初的 15.6% 跃升至 71.0%，达到与 OpenAI-o1-0912 相当的性能水平。这一显着的改进凸显 RL 算法在随时间优化模型性能方面的有效性。

下表在各种推理相关基准上对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型进行比较分析。研究结果表明，RL 使 DeepSeek-R1-Zero 无需任何监督微调数据即可获得强大的推理能力。这是一项值得注意的成就，因为它强调该模型仅通过 RL 就能有效学习和概括的能力。此外，通过应用多数投票，DeepSeek-R1-Zero 的性能可以进一步增强。例如，当在 AIME 基准上使用多数投票时，DeepSeek-R1-Zero 的性能从 71.0% 提升到 86.7%，从而超过 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有或没有多数投票的情况下实现如此有竞争力的性能，凸显其强大的基础能力以及在推理任务中进一步进步的潜力。

DeepSeek-R1-Zero 的自我进化过程。DeepSeek-R1-Zero 的自我进化过程展示了强化学习如何驱动模型自主提高其推理能力。通过直接从基础模型启动强化学习，可以密切监控模型的进展，而不受监督微调阶段的影响。这种方法可以清楚地看到模型如何随时间演变，特别是在处理复杂推理任务的能力方面。

如图所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中显示出持续的改进。这种改进不是外部调整的结果，而是模型内部的内在发展。DeepSeek-R1-Zero 通过利用延长的测试-时间计算，自然获得解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理tokens，使模型能够更深入地探索和改进其思维过程。

这种自我进化最显著的方面之一是，随着测试时间计算的增加，复杂的行为也随之出现。诸如反思（模型重新审视并重新评估其先前的步骤）和探索解决问题的替代方法等行为会自发出现。这些行为不是明确编程的，而是模型与强化学习环境交互的结果。这种自发发展显著增强 DeepSeek-R1-Zero 的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

DeepSeek-R1-Zero 的顿悟时刻。在 DeepSeek-R1-Zero 训练期间观察的一个特别有趣现象是“顿悟时刻”的发生。如表所示，这一时刻发生在模型的中间版本中。在此阶段，DeepSeek-R1-Zero 通过重新评估其初始方法来学习为问题分配更多的思考时间。这种行为不仅证明模型不断增强的推理能力，而且是一个引人入胜的例子，展示强化学习如何产生意想不到的复杂结果。

这一刻不仅是模型的“顿悟时刻”，也是观察其行为的研究人员“顿悟时刻”。它强调强化学习的力量和美妙之处：不是明确地教模型如何解决问题，而是简单地为它提供适当的激励，它就会自主地开发出先进的解决问题策略。这个“顿悟时刻”有力地提醒着，强化学习有潜力在人工智能系统中解锁新的智能水平，为未来更自主、更自适应的模型铺平道路。

DeepSeek-R1-Zero 的缺点。虽然 DeepSeek-R1-Zero 表现出强大的推理能力，并自主开发出意想不到的强大推理行为，但它面临着几个问题。例如，DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为此探索 DeepSeek-R1，这是一种利用 RL 和对人友好冷启动数据的方法。

DeepSeek-R1：冷启动强化学习

受到 DeepSeek-R1-Zero 良好结果的启发，自然而然地产生两个问题：

1）通过结合少量高质量数据作为冷启动，推理性能是否可以进一步提高或收敛速度？
2）如何训练一个用户友好模型，该模型不仅可以产生清晰连贯的思维链 (CoT)，而且还具有强大的通用能力？

为了解决这些问题，设计一个流水线来训练 DeepSeek-R1。该流水线由四个阶段组成，概述如下。

冷启动

与 DeepSeek-R1-Zero 不同，为了防止基础模型出现 RL 训练早期不稳定的冷启动阶段，对于 DeepSeek-R1，构建并收集少量长 CoT 数据来微调模型作为初始 RL 参与者。为了收集此类数据，探索了几种方法：以长 CoT 的少样本提示为例，直接提示模型生成带有反思和验证的详细答案，以可读格式收集 DeepSeek-R1-Zero 输出，并通过人工注释者的后处理来完善结果。

在这项工作中，收集数千个冷启动数据来微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下，在为 DeepSeek-R1 创建冷启动数据时，设计一个可读模式，在每个响应的末尾包含一个摘要，并过滤掉不易于阅读的响应。在这里，将输出格式定义为 |special_token| |special_token|

，其中 reasoning_process 是查询的 CoT，summary 用于总结推理结果。
潜力：通过精心设计具有人类先验知识的冷启动数据模式，得到与 DeepSeek-R1-Zero 相比更好的性能。相信迭代训练，是推理模型的更好方法。

推理导向的强化学习

在冷启动数据上对 DeepSeek-V3-Base 进行微调后，采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练流程。此阶段侧重于增强模型的推理能力，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及定义明确且解决方案明确的问题。在训练过程中，CoT 经常出现语言混合的情况，尤其是当 RL 提示涉及多种语言时。为了缓解语言混合的问题，在 RL 训练期间引入语言一致性奖励，其计算为 CoT 中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降，但这种奖励符合人类的偏好，使其更具可读性。最后，将推理任务的准确性和语言一致性的奖励直接相加，形成最终奖励。然后，对微调后的模型应用强化学习 (RL) 训练，直到它在推理任务上实现收敛。

拒绝抽样和监督微调

当面向推理的 RL 收敛时，利用生成的检查点为下一轮收集 SFT（监督微调）数据。与主要关注推理的初始冷启动数据不同，此阶段结合来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说，生成数据并微调模型，如下所述。

推理数据。通过从上述 RL 训练的检查点执行拒绝抽样，来整理推理提示并生成推理轨迹。在上一阶段，仅包含可以使用基于规则奖励进行评估的数据。但在此阶段，通过合并其他数据来扩展数据集，其中一些数据使用生成奖励模型，将真值和模型预测输入 DeepSeek-V3 进行判断。此外，由于模型输出有时混乱且难以阅读，过滤掉混合语言、长段子和代码块的思维链。对于每个提示，会抽样多个响应并只保留正确的响应。总的来说，收集大约 60 万个与推理相关的训练样本。

非推理数据。对于非推理数据，例如写作、事实问答、自我认知和翻译，采用 DeepSeek-V3 流程并重用 DeepSeek-V3 SFT 数据集的部分内容。对于某些非推理任务，会调用 DeepSeek-V3 来生成潜在的思维链，然后再通过提示回答问题。但是，对于更简单的查询，例如“hello”，不提供 CoT 作为响应。最终，总共收集大约 20 万个与推理无关的训练样本。

使用上述约 80 万个样本的精选数据集对 DeepSeek-V3-Base 进行两个epochs的微调。

适用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致，实施二次强化学习阶段，旨在提高模型的有用性和无害性，同时完善其推理能力。具体来说，使用奖励信号和多样提示分布的组合来训练模型。对于推理数据，遵循 DeepSeek-R1-Zero 中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，采用奖励模型来捕捉复杂和细微场景中的人类偏好。以 DeepSeek-V3 流水线为基础，采用类似的偏好对和训练提示分布。对于有用性，专注于最终摘要，确保评估强调响应对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰。对于无害性，评估模型的整个响应，包括推理过程和摘要，以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，奖励信号和多样化数据分布的整合，能够训练出一个在推理方面表现出色的模型，同时优先考虑有用性和无害性。

DeepSeek-R1：通过强化学习激励LLM的推理能力

正文

请到「今天看啥」查看全文