专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Don't lie to ... ·  昨天  
新智元  ·  刚刚,老黄携GB300震撼登场!DeepSe ... ·  2 天前  
歸藏的AI工具箱  ·  文字 P 图哪家强?字节 SeedEdit ... ·  2 天前  
歸藏的AI工具箱  ·  文字 P 图哪家强?字节 SeedEdit ... ·  2 天前  
宝玉xp  ·  转发微博-20250318114129 ·  2 天前  
51好读  ›  专栏  ›  机器之心

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

机器之心  · 公众号  · AI  · 2025-03-18 14:15

正文

机器之心报道
编辑:Panda、蛋酱

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。

近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统。此 外,使用该算法训练的模型也将在近期开源发布。

image.png

  • 项目页面:https://dapo-sia.github.io/
  • 论文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 代码地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
  • 数据:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k

使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

image.png

相较之下,如果使用 GRPO,Qwen2.5-32B 模型在 AIME 2024 基准上只能获得 30 分。

30 分的成绩远低于 DeepSeek 的强化学习(47 分)。该团队分析发现,原生版 GRPO 面临着几大关键问题,比如熵崩溃、奖励噪音和训练不稳定。事实上,该团队表示,很多研究团队在复现 DeepSeek 的结果时也遇到了类似的难题。他们表示:「这表明 R1 论文中可能省略了开发工业级、大规模且可重现的强化学习系统所需的关键训练细节。」

image.png
Allen AI 研究者 Nathan Lambert 总结了 DAPO 对 GRPO 的改进,包括两个不同的裁剪超参数、动态采样、token 层面的策略梯度损失、过长奖励塑造

下面将从 PPO 到 GRPO 再到 DAPO 逐步介绍,看看这个新的强化学习算法究竟是如何炼成的。

近端策略优化(PPO)

PPO 引入了裁剪式替代目标(clipped surrogate objective)来执行策略优化。通过使用裁剪将策略更新限制在先前策略的近端区域内,PPO 可以让训练稳定并提高样本效率。具体而言,PPO 更新策略的方式是最大化以下目标:

image.png

群组相对策略优化(GRPO)

与 PPO 相比,GRPO 消除了价值函数并以群组相关的方式来估计优势。对于特定的问答对 (q, a),行为策略 π_θ_old 采样一组 G 个个体响应 image.png 然后,通过对群组级奖励 image.png 进行归一化来计算第 i 个响应的优势:

image.png

与 PPO 类似,GRPO 也采用了裁剪目标,同时还有一个直接添加的 KL 惩罚项:

image.png

还值得注意的是,GRPO 是在样本层级计算目标。确切地说,GRPO 首先会计算每个生成序列中的平均损失,然后再对不同样本的损失进行平均。正如后面会讨论的那样,这种差异可能会对算法的性能产生影响。

另外两项改进

消除 KL 偏离

KL 惩罚项的作用是调节在线策略和冻结参考策略之间的偏离情况。在 RLHF 场景中,RL 的目标是在不偏离初始模型太远的情况下调整模型行为。然而,在训练长 CoT 推理模型时,模型分布可能会与初始模型有显著差异,因此这种限制是不必要的。因此,在 DAPO 中,KL 项被排除在外。

基于规则的奖励建模

奖励模型的使用通常会受到奖励 hacking 问题的影响。作为替代,该团队直接使用可验证任务的最终准确率作为结果奖励,计算规则如下:

image.png

事实证明,这是激活基础模型推理能力的有效方法,这也在多个领域得到了证明,包括自动定理证明、计算机编程和数学竞赛。

DAPO

研究者提出了解耦剪辑(Decouple Clip)和动态采样策略优化(DAPO)算法。DAPO 对每个问题 q 和答案 a 的一组输出 截屏2025-03-18 09.22.10.png 进行采样,并通过以下目标优化策略:

截屏2025-03-18 09.13.29.png

此处

截屏2025-03-18 09.15.49.png

下面将介绍与 DAPO 相关的关键技术。

抬高天花板:Clip-Higher

在使用 PPO 或 GRPO 进行的初步实验中,研究者观察到了熵崩溃现象:随着训练的进行,策略的熵迅速下降(如图 2b)。某些组的采样响应通常几乎相同。这表明有限的探索和早期的确定性策略会阻碍扩展过程。

截屏2025-03-18 09.25.46.png






请到「今天看啥」查看全文