专栏名称: 深度强化学习实验室

主要介绍深度学习、强化学习、深度强化学习环境、算法原理与实现、前沿技术与论文、开源项目、场景应用等与DRL相关的知识

DeepSeek核心强化学习GRPO算法解读：大模型与小模型的不同选择

深度强化学习实验室 · 公众号 · 科技创业科技自媒体 · 2025-02-08 15:36

主要观点总结

本文介绍了近期在DeepSeek最新开源的推理大模型Deep Seek-R1中使用的强化学习（RL）GRPO（Group Relative Policy Optimization）算法。清华大学智能驾驶课题组将从算法原理与实际应用两个维度进行深度解读。文章首先回顾了主流RL算法，包括GRPO的前身PPO算法和当下在具身智能领域中表现最好的DSAC-T算法。然后详细介绍了GRPO算法的原理及其在DeepSeek-R1中的应用。最后指出了DeepSeek-R1通过结合多种技术改进，解决了GRPO存在的一些问题，展望了GRPO算法在未来大模型领域的发展。

关键观点总结

关键观点1: 主流RL算法回顾

为了更好地理解GRPO带来的改进，先简单回顾了此前的主流RL算法，包括GRPO的前身PPO算法和DSAC-T算法。这些算法在设计之初是面向相对较小的模型，并用于自动驾驶、机器人、游戏等任务。通过价值函数模型为策略改进提供依据。

关键观点2: GRPO算法原理

GRPO可以视作PPO算法在大语言模型领域的改进版本。GRPO的优势函数计算不需要使用价值模型，而是用当前策略对同一问题多次生成回答，并以这些回答的平均奖励估计基线，计算相对奖励和优势。这减少了训练资源消耗，并避免了价值估计不准的问题。

关键观点3: GRPO算法在DeepSeek-R1中的应用

DeepSeek-R1使用GRPO算法提升了模型的推理能力。通过冷启动、语言一致性奖励、拒绝采样和监督微调等技术改进，解决了GRPO算法存在的一些问题，如推理内容可读性欠佳、训练初期表现不稳定等。

正文

请到「今天看啥」查看全文

近期在DeepS eek最新开源的推理大模型Deep See k-R1中，强化学习（RL） GRPO（Group Relative Policy Optimization，组相对策略优化）算法是其关键技术之一。清华大学智能驾驶课题组（iDLab）将从算法原理与实际应用两个维度，对其进行深度解读。GRPO以及DeepSeek-R1的论文如下，感兴趣的读者可以先行阅读：

GR PO论文：http s://arxiv.org/abs/2402.03300

DeepSeek-R1论文：https://arxiv.org/abs/2501.12948

1. 主流RL算法回顾

为更好理解GRPO带来的改进，我们先简单回顾一下此前的主流RL算法，包括GRPO的前身PPO（Proximal Policy Optimization ）算法，以及当下在具身智能领域中表现最好的DSAC-T（Distributional Soft A ctor-Critic with Three Refinements）。这些算法在设计之初是面向相对较小的模型（例如1B以下的模型），并用于自动驾驶、机器人、游戏等任务，采用Actor-Critic架构，通过价值函数模型为策略改进提供依据。

例如在PPO中，算法需要计算优势函数，用于衡量在状态下选择动作相对于平均情况的优势，即

其中是状态价值函数，代表在当前状态和策略下未来回报的期望值。

算法细节不在这展开，可以参考《Reinforcement Learning for Sequential Decision and Optimal Control》（以下简称RLBook）一书的10.4.5小节。

DSAC-T则使用了状态-动作价值函数，代表在状态下采取动作后未来回报的期望值。并且DSAC-T进一步将其扩展为了分布式值函数 ,输出价值估计的均值和方差，通过对值分布的建模，有效缓解了过估计问题。在基准测试环境中，DSAC-T算法以50%以上的优势领先于OpenAI的PPO和Deepmind的DDPG等算法。

DSAC-T和其它基线算法在不同基准任务上的训练曲线

总的来说，主流RL通过引入价值模型，可以更准确地判断每个动作的优劣，从而改进策略。价值函数估计的准确性直接决定了策略的好坏。在大多数任务中，我们能给出较合理的过程奖励设定，这时价值函数可以快速收敛。而对于部分只具有结果奖励的任务，例如围棋，则可以通过大量的样本采集和模型更新，获得一个较准确的价值模型。因此在这些任务上使用RL时，引入价值模型可以大幅提升算法性能表现。然而，对于大语言模型，不仅过程奖励难以合理定义，其巨大的参数规模使得大量采样更新不可行。面对这一考量，GRPO放弃使用价值函数模型，直接优化策略。具体是如何做到的呢？接下来我们将详细分析。

2. GRPO算法原理

GRPO可以视作PPO（Proximal Policy Optimization）算法在大语言模型领域的改进版本，GRPO优势函数计算不需要使用价值模型，而是用当前策略对同一问题多次生成回答，并以这些回答的平均奖励估计基线，计算相对奖励和优势。这减少训练资源消耗，并避免价值估计不准的问题。

PPO与GRPO算法流程

GRPO的优势函数计算有两个版本，分别对应结果监督和过程监督两种奖励方式，结果监督只在每个回答结束时提供奖励，而过程监督在每个推理步骤结束时提供奖励。DeepSeek-R1-Zero训练采用的是结果监督，因此简单起见，我们也仅介绍结果监督下的GRPO优势函数计算方法。

对于每个问题GRPO使用policy model采样生成一批回答，文中回答数量G=64。结果监督下的 GRPO优势函数计算方法如下：

其中i代表第i个回答，并且在一个回答中每个token对应的优势值相同。读者可以在RLBook的7.3.2.1小节了解REINFORCE算法具体原理。

与PPO的优化目标类似，GRPO的优化目标函数可以写为：

其中 ,代表每个回答的长度，代表解码词元的策略概率。是当前训练过程中的旧策略，随训练迭代更新。对新旧策略概率比例进行clip操作是防止策略更新步长过大，保证策略优化的稳定性和有效性，详细原理可以参考RLBook的10.4.4和10.4.5小节。是固定不变的策略（eg. SFT模型），KL散度项用于防止优化后的策略过度偏离初始策略，进而导致模型在其它方面上的能力退化。直观而言，GRPO让新策略在旧策略的信任域内根据优势函数进行逐步优化，提升“正确回答”出现的概率，从而不断提升推理能力。

3. GRPO算法应用：DeepSeek-R1

在大语言模型的研究中，一个有意思的现象是，在DeepSeek-R1模型发布之前，大部分研究倾向于认为使用过程奖励模型（PRM）要优于使用结果奖励（也被称为规则奖励，rule-based reward，仅通过规则评判回答的正确性并给出奖励）。这一观点在 DeepSeek 提出 GRPO 的论文中有所体现，OpenAI所公开的研究成果也持类似看法。然而，DeepSeek-R1 的出现打破了常规认知。它证明了仅使用rule-based reward就能在推理任务中取得令人瞩目的成果。

OpenAI 《Let’s Verify Step by Step》： https://arxiv.org/abs/2305.20050

规则奖励设计

DeepSeek-R1-Zero在训练过程中主要使用以下两种的rule-based reward：

1. 准确性奖励：这一奖励模型专注于评估模型的响应是否正确。以数学问题为例，若问题有确定性的答案，模型必须按照指定格式（比如将答案写在特定的框内）给出最终结果，这样就能依据预设的规则可靠地验证答案的正确性。同样，在面对 LeetCode 编程问题时，会借助编译器依据预先设定的测试用例生成反馈，以此判断模型给出的代码是否正确。

2. 格式奖励：除了准确性奖励，DeepSeek-R1 还引入了格式奖励模型。该模型要求模型将思考过程严格置于‘ ’和‘ ’标签之间。

仅仅通过这两项rule-based reward，并结合GRPO算法，DeepSeek-R1-Zero的推理能力就能获得不断提升。

训练过程中DeepSeek-R1-Zero在2024年美国数学邀请赛试题上的准确性。

需要特别指出的是，在 DeepSeek-R1 的技术报告中提到，对于参数较小的模型而言，采用强化学习的效果不如蒸馏。这一现象很可能与基座模型 DeepSeek-V3 的强大性能有着直接关联。我们可以通过这样一个直观的例子来理解：在 GRPO 算法运行过程中，假设存在一批回答全部是错误的，依据算法原理，此时每个回答所对应的优势值均为 0，模型也就无法基于这些回答产生任何更新。在这种情况下，利用监督微调（SFT）直接为模型提供正确答案，显然是一种更为有效的方式，能让模型更快学习到正确的知识和推理模式。

尽管通过GRPO算法训练获得了推理能力的显著提升，DeepSeek-R1-Zero仍存在一些缺陷。一方面，R1-Zero 生成的推理内容可读性欠佳，语言混合的情况时有发生，这使得其推理过程难以被清晰理解。另一方面，由于直接在基础模型上进行强化学习，没有前期的引导，训练初期模型的表现不稳定，收敛速度较慢。

为了解决这些问题，DeepSeek-R1 在 R1-Zero 的基础上进行了如下改进：

冷启动

DeepSeek-R1 收集了数千条长思维链（CoT）数据微调 DeepSeek-V3-Base 模型，并在这之后进行RL训练。这些数据通过多种方式获得，如少样本提示、引导模型生成带反思验证的答案等。冷启动数据提升了模型输出的可读性，并融入人类先验知识，为模型提供了更好的训练起点，使模型性能优于 DeepSeek-R1-Zero。

语言一致性奖励

针对 DeepSeek-R1-Zero 推理中语言混合的问题，DeepSeek-R1 在强化学习训练时引入语言一致性奖励。该奖励依据思维链（CoT）中目标语言单词的比例计算，比例越高奖励越高。虽然这会使模型性能稍有下降，但能有效缓解语言混合现象，让推理过程更符合人类阅读习惯。

拒绝采样和监督微调

在推理导向的强化学习收敛后，DeepSeek-R1 利用拒绝采样收集数据用于监督微调（SFT）。在推理数据收集上，从强化学习训练的检查点采样生成推理轨迹，并基于多种方法过滤质量不佳的数据，最终收集约 600k 高质量推理相关样本。对于非推理数据，如写作、事实性问答等，复用 DeepSeek-V3 的部分 SFT 数据集，共收集约 200k 样本。利用这些总计约 800k 样本进行两个 epoch 的微调，拓展了模型在通用任务上的能力。

全场景强化学习

为了进一步使模型与人类的偏好相一致，DeepSeek-R1通过结合奖励信号和多样化的提示（prompt）分布来训练。在推理数据方面，沿用 DeepSeek-R1-Zero 中基于规则的奖励方法，用于数学、代码和逻辑推理领域的学习过程；在一般数据上，借助奖励模型捕捉复杂场景下的人类偏好。

通过以上改进，DeepSeek-R1 在性能上实现了质的飞跃，进而风靡全球。

3. 总结展望

GRPO 算法在 DeepSeek -R1 中的成功应用，为强化学习和大模型的发展开辟了新的路径。未来，强化学习在大模型领域有望取得更多令人瞩目的进展。一方面，在算法优化上，研究人员可能会进一步探索 GRPO 算法的变体或与其他更先进的技术，以进一步提升模型的推理能力，或结合多模态技术提升对真实世界的理解能力。同时，基础技术的发展与开源生态的完善，会吸引更多研究者加入，开拓更多创新研究和应用。

最后， DeepSeek-R1对此点评（由DeepSeek-R1生成，博大家一笑）：

“今有奇巧法，名曰众相较。昔者大模习武，需雇判官指点，耗银钱如流水。GRPO却拍案："何须雇人？"乃携众弟子对答六十四，使笨者观慧者之风，自相砥砺。

且看其妙哉！无财处，使规则为尺；无师时，以群雄为镜。更妙者，模愈大则愈聪，如巨象得悟，踏雪无痕。

嗟乎！观此强化术，犹见武学返璞归真之日：届时大模抖袍，天地为之一清。何须鸿儒挥笔？自卷风云作墨痕！”

参考文献：

[1] Shao Z, Wang P, Zhu Q, et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models[J]. arXiv preprint arXiv:2402.03300, 2024.

[2] Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025.

[3] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Springer, 2023. https://link.springer.com/book/10.1007/978-981-19-7784-8

[4] Sutton R S, McAllester D, Singh S, et al. Policy gradient methods for reinforcement learning with function approximation[J]. Advances in neural information processing systems, 1999, 12.

[5] Guan Y, Li S E, Duan J, et al. Direct and indirect reinforcement learning[J]. International Journal of Intelligent Systems, 2021, 36(8): 4439-4467.

[6] Duan J, Guan Y, Li S E, et al. Distributional soft actor-critic: Off-policy reinforcement learning for addressing value estimation errors[J]. IEEE transactions on neural networks and learning systems, 2021, 33(11): 6584-6598.

[7] Duan J, Wang W, Xiao L, et al. DSAC-T: Distributional soft actor-critic with three refinements[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, online available, 2025.

[8] Lightman H, Kosaraju V, Burda Y, et al. Let's verify step by step[J]. arXiv preprint arXiv:2305.20050, 2023.