低成本复现 DeepSeek R1-Zero:仅用30美元,小型语言模型在倒计时游戏中展现惊人自验证与搜索能力
刚刚,来自加州伯克利大学在读博士Jiayi Pan的研究团队成功地以极低的成本(低于30美元)复现了 DeepSeek R1-Zero 的关键技术,并在“倒计时”游戏中取得了令人瞩目的成果。这项研究表明,即使是规模较小的语言模型,通过强化学习(RL)也能自主发展出强大的自验证和搜索能力,直接证明了DeepSeek R1 开源的强大以及R1论文的可复现性
Jiayi Pan 目前在Berkeley AI Research攻读博士学位,专注于语言模型智能体的扩展研究。他们的这项工作聚焦于一个核心问题:如何让语言模型在没有大量指令微调的情况下,仅通过强化学习就能学会复杂的推理和问题解决策略
实验方法:DeepSeek R1-Zero 算法在“倒计时”游戏中的应用
研究团队采用了 DeepSeek R1-Zero 的算法框架。这个框架的核心思想是:给定一个基础语言模型、提示以及来自环境的真实奖励信号,通过强化学习来训练模型。 他们选择“倒计时”游戏作为实验平台。“倒计时”游戏是一个考验数字运算能力的游戏,玩家需要利用给定的数字和基本的算术运算(加减乘除)来尽可能接近目标数字
实验结果:“效果惊人!”——模型自主学习验证与搜索
实验结果令人振奋,效果惊人!研究表明,模型从最初的“胡乱输出”状态开始,逐渐发展出了各种解决问题的策略,例如自我验证和搜索
一个典型的例子是,模型能够先提出一个解决方案,然后自我验证这个方案是否正确,如果发现错误,则会进行迭代修改,直到找到有效的解决方案。完整的实验日志可以在 WandB 平台上查看:
https://wandb.ai/jiayipan/TinyZero
消融实验:关键因素分析
为了更深入地理解模型能力提升的关键因素,研究团队进行了一系列消融实验:
基础模型质量至关重要: 他们测试了 Qwen-2.5-Base 系列的不同规模模型 (0.5B, 1.5B, 3B, 7B)。结果表明,0.5B 模型只能简单地猜测答案就停止了。而从 1.5B 模型开始,模型就能够学习进行搜索、自我验证和修正解决方案,从而显著提高得分。这强调了基础模型的能力是RL学习高级策略的基础
基础模型和指令模型均有效: 研究团队对比了基础模型和指令模型(Instruct model)的表现。结果显示,指令模型学习速度更快,但最终性能与基础模型趋于一致。此外,指令模型的输出结构更清晰,更易读。这个发现支持了 R1-Zero 的设计理念,即额外的指令微调并非是必需的
特定的 RL 算法影响不大: 研究团队尝试了 PPO, GRPO 和 PRIME 等不同的强化学习算法。实验表明,这些算法都能够有效地引导模型学习长程上下文(Long Context, Long CoT)推理,并且效果都比较好。由于时间有限,团队尚未进行超参数调优,因此没有对不同算法的优劣做出定量结论
模型推理行为高度依赖任务: 一个有趣的发现是,模型学习到的推理行为与任务本身密切相关。在“倒计时”游戏中,模型学会了搜索和自我验证;而在数字乘法任务中,模型则学会了利用分配律将问题分解,然后逐步解决。这表明模型并非学习通用的推理策略,而是针对特定任务优化其解决问题的方式
写在最后:
该项目的所有代码和资源都已开源在 GitHub 上:
http://github.com/Jiayi-Pan/TinyZero
更令人惊讶的是,训练模型的成本竟然低于 30 美元!研究团队希望这个项目能够帮助揭秘新兴的强化学习规模化研究,并使其更加普及和易于访问
当然,这项研究也存在一定的局限性。目前的验证仅限于“倒计时”游戏,尚未扩展到更通用的推理领域
个人觉得DeepSeek R1的影响才刚刚开始,现在我已经看到很多人开始按照R1的开源的技术方法开始整活了,这真的有点像Transformer当时带来的影响,而且全世界任何实验室都可以用,强化学习之父Richard Sutton看到DeepSeek R1我想一定很欣慰,因为去年他接受采访时很不满意当前的AI研究(可以看我这篇文章:强化学习之父Sutton最新万字采访:炮轰深度学习只是瞬时学习,持续学习才是智能突破的关键),从这一刻一切都要改变了,请大家记住这是来自一家中国的AI研究公司
参考:
https://x.com/jiayi_pirate/status/1882839514563125643
来源:AI寒武纪