专栏名称: 深度学习这件小事

机器学习算法、深度学习算法、自然语言处理等干货知识集中营

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

深度学习这件小事 · 公众号 · 科技自媒体 · 2025-02-26 00:00

正文

大模型智能｜分享

来源 | 机器之心

编辑 | Panda

DeepSeek-R1 非常热门，而在其公布的训练配方中，GRPO（Group Relative Policy Optimization）非常关键，是 DeepSeek-R1 核心的强化学习算法。

PPO 与 GRPO 的对比，来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

相较于 PPO，GRPO 去掉了价值模型，而是通过分组分数来估计基线，从而可极大减少训练资源。

DeepSeek-R1 技术报告中写到：「具体来说，我们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中，DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后，DeepSeek-R1-Zero 在推理基准上表现出超强的性能。」

但现在，有一项研究却证明 GRPO 对推理模型来说并不很重要。

阶跃星辰与清华大学近期的一项研究发现，只需使用带 GAE （λ= 1，γ= 1）的普通 PPO 以及基于规则的简单奖励函数，无需任何 KL 正则化，就足以扩展在推理任务上的响应长度和基准性能，类似于在 DeepSeek-R1-Zero 上观察到的现象。

使用这种极简方法，他们打造了 Open-Reasoner-Zero，这是首个面向大规模推理的强化学习训练的开源实现。并且该实现在 GPQA Diamond 基准上的表现优于 DeepSeek-R1-Zero-Qwen-32B，同时 仅需使用 1/30 的训练步数 。需要强调，该团队不仅开源了代码，还发布了参数设置、训练数据和模型权重。

论文标题：Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
论文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
项目地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
Hugging Face：https://huggingface.co/Open-Reasoner-Zero

从基础模型开始扩展强化学习

下面首先将介绍基础又关键的设置，括数据整编、奖励函数和近端策略优化 (PPO) 算法的详细设置。然后会讨论从消融实验中得出的关键见解，这些见解可以成功实现规模化强化学习训练。

基础设置

实验中，基础模型使用的是 Qwen2.5-{7B, 32B}，并且不经过任何微调（如蒸馏或 SFT）即开始规模化强化学习训练。在 Qwen2.5-{7B, 32B} 基础模型的基础上，该团队扩展了标准 PPO 算法，以用于面向推理的强化学习训练，同时仔细考虑了可扩展性和稳健性。

数据集方面，该团队精心编排了涉及 STEM、数学和推理任务的数万对问答数据，目标是增强模型在多样化和复杂问题求解场景中的能力。

受 DeepSeek-R1 启发，他们设计的提示词模板可以引导模型利用推理计算，逐步掌握针对复杂任务的推理能力，如表 1 所示。

此外，他们还基于 OpenRLHF 开发了一个高效的大规模强化学习训练框架，通过引入更灵活的训练器，实现了 GPU 共置生成（collocation generation）以及支持卸载和回载的训练。

数据集

高质量训练数据对可扩展 Reasoner-Zero 训练来说非常关键。这里作者关注了三个关键方面：数量、多样性和质量。

详细的收集整理过程请阅读原论文。最终，他们得到的数据集包含 57k 样本，涵盖 STEM、数学和推理领域。

奖励函数

不同于 DeepSeek-R1-Zero，这里的规模化强化学习训练采用了简单的规则式奖励函数 —— 该函数仅检查答案的正确性，没有任何额外的格式奖励 。

具体来说，这个奖励函数会在训练时提取与标签之间的内容，并将其与参考答案比较。

为了保证规模化强化学习清晰又简单，他们实现了一种二元奖励方案：如果与参考答案完全匹配，则奖励为 1；所有其他情况的奖励为 0。

为了确保评估严格且一致，他们采用了被广泛使用的 Math-Verify 库，图 3 展示了其用法。

出人意料的是，该团队发现，使用新设计的提示，即使是未对齐的基础模型也能以很高的概率产生格式良好的响应。在早期训练阶段，基础模型仅通过简单的基于规则的奖励函数就能快速学会和强化正确的推理和回答格式，如图 4 所示。更重要的是，初步实验表明， 复杂的奖励函数不仅是不必要的，而且可能为奖励 hacking 留下潜在的空间 。

强化学习算法

不同于 DeepSeek-R1-Zero 使用的 GRPO，该团队为规模化训练采用的强化学习算法是近端策略优化（PPO）算法。

具体来说，对于每个问题 q（即提示词），模型会根据基于规则的奖励函数生成一组响应 {o_1, o_2, ..., o_n} 并接收相应的奖励 {r_1, r_2, ..., r_n}，其中 n 表示采样轨迹的数量（即每个提示词的 rollout 大小）。

对于时间步骤 t （即 token t）处的每个响应 o_i ，令 s_t 表示时刻 t 的状态，包括问题和所有之前生成的 token，并令 a_t 表示在该步骤生成的 token。

对于每个 token，使用 Generalized Advantage Estimation（GAE）计算其优势估计。一般来说，GAE 能在优势估计中提供偏差与方差的权衡，做法是通过一个由参数 λ 控制的指数加权平均值将 n 步优势估计组合起来。该优势估计的计算方式是：，其中是 TD（temporal difference）残差，γ 是折扣因子，它决定了未来奖励相对于即时奖励的价值。该 PPO 算法通过优化以下目标函数来更新策略模型参数 θ 以最大化预期奖励和价值模型参数 Φ，从而最小化价值损失：

其中 ε 是 clipping 参数，π_θ 是当前策略，π_θ_old 是更新前的旧策略，V_Φ 是价值函数，是折扣回报。

具体到实例上，该团队为该 PPO 算法精心挑选了一些超参数：GAE 参数 λ = 1.0、折扣因子 γ = 1.0 和 clipping 参数 ε = 0.2。

主要发现

该团队得到了以下主要发现：

强化学习算法关键实现：实证研究表明， 原始的 PPO 在不同模型规模和训练持续时间内能够提供非常稳定和强大的训练过程，而无需进行额外的修改 。通过广泛的实验，他们发现 GAE 参数在 PPO 推理任务中起着关键作用。具体来说，设置 λ = 1.0 和 γ = 1.0。虽然这种设置在传统强化学习场景中通常被认为是次优的，但它却能实现规模化强化学习训练的理想平衡。

最小奖励函数设计：该团队研究表明， 简单的基于规则的奖励函数不仅足够而且是最佳的 ，因为最小设计不会留下任何潜在的奖励 hacking 空间。值得注意的是，即使是 未对齐的基础模型也能快速适应所需的格式 ，这表明这是一项简单的任务，不需要复杂的奖励工程设计。

损失函数：该团队在 不依赖任何基于 KL 的正则化技术（例如 KL 形状的奖励和损失）的情况下实现了稳定的训练 ，这不同于 RLHF 社区和推理器模型普遍使用的方法。这也有很好的潜力实现进一步大规模强化学习。

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

正文

请到「今天看啥」查看全文