主要观点总结
文章介绍了Open-Reasoner-Zero项目,该项目使用简化的强化学习算法PPO和基于规则的奖励函数,旨在实现大规模推理任务的训练。研究发现原始的PPO算法在不同模型规模和训练时间内提供了稳定和强大的训练过程,而无需额外修改。简单的基于规则的奖励函数足够且最佳用于推理任务。研究还显示,扩大数据量和多样性对于Reasoner-Zero训练至关重要。此外,模型表现出了强大的泛化能力,在面向推理的任务上显著优于使用传统方法训练的模型。并且该团队进行了详细的消融实验以验证其方法的有效性。
关键观点总结
关键观点1: Open-Reasoner-Zero项目使用简化的强化学习算法PPO实现大规模推理任务训练。
该项目发现使用简化的强化学习算法PPO和基于规则的奖励函数可以有效实现大规模推理任务的训练,并且通过扩大数据量和多样性可以进一步提高模型的性能。
关键观点2: 研究发现原始的PPO算法在不同模型规模和训练时间内表现出稳定的训练过程。
该研究通过广泛的实验发现,原始的PPO算法在不需要额外修改的情况下就能提供稳定和强大的训练过程。
关键观点3: 简单的基于规则的奖励函数对于推理任务是最优的。
该研究认为简单的基于规则的奖励函数对于推理任务而言足够且最佳,因为复杂奖励函数可能会留下潜在的奖励 hack 空间。
关键观点4: Open-Reasoner-Zero模型表现出强大的泛化能力。
该模型在知识和指令遵从基准 MMLU_PRO 和 IFEval 上的表现表明,其具有很强的泛化能力。
关键观点5: 消融实验验证了方法的有效性。
通过详细的消融实验,该团队验证了他们的方法在各种设置下的有效性。
正文
DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。
PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》
相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。
DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中,DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。」
但现在,有一项研究却证明 GRPO 对推理模型来说并不很重要。
阶跃星辰与清华大学近期的一项研究发现,只需使用带 GAE (λ= 1,γ= 1)的普通 PPO 以及基于规则的简单奖励函数,无需任何 KL 正则化,就足以扩展在推理任务上的响应长度和基准性能,类似于在 DeepSeek-R1-Zero 上观察到的现象。
使用这种极简方法,他们打造了 Open-Reasoner-Zero,这是首个面向大规模推理的强化学习训练的开源实现。并且该实现在 GPQA Diamond 基准上的表现优于 DeepSeek-R1-Zero-Qwen-32B,同时
仅需使用 1/30 的训练步数
。需要强调,该团队不仅开源了代码,还发布了参数设置、训练数据和模型权重。
-
论文标题:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
-
论文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
-
项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
-
Hugging Face:https://huggingface.co/Open-Reasoner-Zero
下面首先将介绍基础又关键的设置,括数据整编、奖励函数和近端策略优化 (PPO) 算法的详细设置。然后会讨论从消融实验中得出的关键见解,这些见解可以成功实现规模化强化学习训练。
实验中,基础模型使用的是 Qwen2.5-{7B, 32B},并且不经过任何微调(如蒸馏或 SFT)即开始规模化强化学习训练。在 Qwen2.5-{7B, 32B} 基础模型的基础上,该团队扩展了标准 PPO 算法,以用于面向推理的强化学习训练,同时仔细考虑了可扩展性和稳健性。
数据集方面,该团队精心编排了涉及 STEM、数学和推理任务的数万对问答数据,目标是增强模型在多样化和复杂问题求解场景中的能力。
受 DeepSeek-R1 启发,他们设计的提示词模板可以引导模型利用推理计算,逐步掌握针对复杂任务的推理能力,如表 1 所示。
此外,他们还基于 OpenRLHF 开发了一个高效的大规模强化学习训练框架,通过引入更灵活的训练器,实现了 GPU 共置生成(collocation generation)以及支持卸载和回载的训练。
高质量训练数据对可扩展 Reasoner-Zero 训练来说非常关键。这里作者关注了三个关键方面:数量、多样性和质量。
详细的收集整理过程请阅读原论文。最终,他们得到的数据集包含 57k 样本,涵盖 STEM、数学和推理领域。
不同于 DeepSeek-R1-Zero,这里的规模化强化学习训练采用了简单的规则式奖励函数 ——
该函数仅检查答案的正确性,没有任何额外的格式奖励
。
具体来说,这个奖励函数会在训练时提取
与
标签之间的内容,并将其与参考答案比较。
为了保证规模化强化学习清晰又简单,他们实现了一种二元奖励方案:如果与参考答案完全匹配,则奖励为 1;所有其他情况的奖励为 0。
为了确保评估严格且一致,他们采用了被广泛使用的 Math-Verify 库,图 3 展示了其用法。
出人意料的是,该团队发现,使用新设计的提示,即使是未对齐的基础模型也能以很高的概率产生格式良好的响应。在早期训练阶段,基础模型仅通过简单的基于规则的奖励函数就能快速学会和强化正确的推理和回答格式,如图 4 所示。更重要的是,初步实验表明,
复杂的奖励函数不仅是不必要的,而且可能为奖励 hacking 留下潜在的空间
。
不同于 DeepSeek-R1-Zero 使用的 GRPO,该团队为规模化训练采用的强化学习算法是近端策略优化(PPO)算法。
具体来说,对于每个问题 q(即提示词),模型会根据基于规则的奖励函数生成一组响应 {o_1, o_2, ..., o_n} 并接收相应的奖励 {r_1, r_2, ..., r_n},其中 n 表示采样轨迹的数量(即每个提示词的 rollout 大小)。
对于时间步骤 t (即 token t)处的每个响应 o_i ,令 s_t 表示时刻 t 的状态,包括问题和所有之前生成的 token,并令 a_t 表示在该步骤生成的 token。
对于每个 token,使用 Generalized Advantage Estimation(GAE)计算其优势估计
。一般来说,GAE 能在优势估计中提供偏差与方差的权衡,做法是通过一个由参数 λ 控制的指数加权平均值将 n 步优势估计组合起来。该优势估计的计算方式是:
,其中
是 TD(temporal difference)残差,γ 是折扣因子,它决定了未来奖励相对于即时奖励的价值。该 PPO 算法通过优化以下目标函数来更新策略模型参数 θ 以最大化预期奖励和价值模型参数 Φ,从而最小化价值损失:
其中 ε 是 clipping 参数,π_θ 是当前策略,π_θ_old 是更新前的旧策略,V_Φ 是价值函数,
是折扣回报。
具体到实例上,该团队为该 PPO 算法精心挑选了一些超参数:GAE 参数 λ = 1.0、折扣因子 γ = 1.0 和 clipping 参数 ε = 0.2。
强化学习算法关键实现:实证研究表明,
原始的 PPO 在不同模型规模和训练持续时间内能够提供非常稳定和强大的训练过程,而无需进行额外的修改
。通过广泛的实验,他们发现 GAE 参数在 PPO 推理任务中起着关键作用。具体来说,设置 λ = 1.0 和 γ = 1.0。虽然这种设置在传统强化学习场景中通常被认为是次优的,但它却能实现规模化强化学习训练的理想平衡。
最小奖励函数设计:该团队研究表明,
简单的基于规则的奖励函数不仅足够而且是最佳的
,因为最小设计不会留下任何潜在的奖励 hacking 空间。值得注意的是,即使是
未对齐的基础模型也能快速适应所需的格式
,这表明这是一项简单的任务,不需要复杂的奖励工程设计。
损失函数:该团队在
不依赖任何基于 KL 的正则化技术(例如 KL 形状的奖励和损失)的情况下实现了稳定的训练
,这不同于 RLHF 社区和推理器模型普遍使用的方法。这也有很好的潜力实现进一步大规模强化学习。
扩大训练数据规模:该团队发现扩大数据量和多样性对于 Reasoner-Zero 训练至关重要。虽然在有限的学术数据集(如 MATH)上进行训练会导致性能快速停滞,但
该团队精细编排的大规模多样化数据集能够实现持续扩展
,而不会在训练和测试集上出现饱和迹象。
下面介绍 Open-Reasoner-Zero 模型的全面实验结果和分析。其中包括两个方面的初步实验结果:利用训练得到的推理器进行蒸馏,在蒸馏得到的模型上使用 Open-Reasoner-Zero 训练流程以进一步增强其推理能力(类似 DeepSeek-R1 的方法)。训练的细节和超参数请参阅原论文,这里我们重点来看结果。
图 2 显示了在 Open-Reasoner-Zero 7B 和 32B 上的实验的训练奖励和平均响应长度曲线,而图 5 展示了在训练和评估集上对 Open-Reasoner-Zero 7B 的实验的奖励 / 准确度和平均响应长度曲线。训练奖励曲线和响应长度曲线分别表示生成的响应的平均奖励和每个生成步骤中生成的响应的平均长度。