论文题目:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
论文地址:https://arxiv.org/pdf/2501.12948
创新点
-
DeepSeek-R1-Zero 是首个完全基于强化学习(RL)训练的推理大模型,不依赖监督微调(SFT)。这一创新证明了通过纯强化学习可以实现强大的推理能力,甚至在某些任务上超越了依赖人类标注数据的模型。
-
DeepSeek-R1 采用 GRPO 算法替代传统的近端策略优化(PPO)。无需单独的价值模型,减少模型参数量。采用基于组的相对优势估计,提高训练效率。
-
DeepSeek-R1-Zero 实施了一个基于规则的奖励系统,包含准确性奖励和格式奖励。针对数学问题等确定性任务,要求模型在特定格式中提供答案,支持自动化验证。
方法
本文的DeepSeek-R1 系列模型通过纯强化学习(RL)和多阶段训练相结合的方法,显著提升了大语言模型的推理能力。
具体来说,DeepSeek-R1-Zero 作为基础模型,完全依赖于强化学习进行训练,不使用任何监督微调(SFT)。它采用了一个基于规则的奖励系统,包括准确性奖励和格式奖励,以确保模型在生成答案时遵循特定的结构化格式。同时,通过设计简洁的训练模板,引导模型在生成答案时先进行思考,再给出最终答案,从而促进模型自然地发展出链式思考(CoT)能力。在训练过程中,DeepSeek-R1-Zero 展现出了自进化能力,能够自主发展出反思、验证等复杂推理行为,显著提升了推理性能。
DeepSeek-R1 基准测试
本图是一张综合性能对比图,展示了 DeepSeek-R1 模型在多个关键基准测试中的表现,并与其他先进模型进行了详细对比。
图中涵盖了 AIME 2024、Codeforces、GPQA Diamond、MATH-500 和 MMLU 等重要任务的性能指标。DeepSeek-R1 在这些任务上表现出色,尤其在数学推理和编程任务中,其性能与 OpenAI-o1-1217 相当甚至略胜一筹,例如在 AIME 2024 上的 Pass@1 分数达到 79.8%,略高于 OpenAI-o1-1217 的 79.2%;在 MATH-500 上,DeepSeek-R1 的 Pass@1 分数为 97.3%,与 OpenAI-o1-1217 的 96.4% 相当。此外,DeepSeek-R1 在 Codeforces 编程竞赛中也表现出色,Elo 评分达到 2029,超过 96.3% 的人类参赛者。这些结果表明 DeepSeek-R1 在推理和编程任务上具有强大的竞争力,同时也展示了其在知识问答和创造性写作等任务上的广泛适用性。
DeepSeek-R1-Zero 准确率变化
本图展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试上的准确率随强化学习训练步骤的变化。
图中清晰地描绘了 DeepSeek-R1-Zero 在训练过程中的性能提升轨迹。初始时,模型的 Pass@1 准确率仅为 15.6%,但随着强化学习的推进,准确率稳步提升,最终达到 71.0%。当采用多数投票(consensus@64)时,准确率进一步提升至 86.7%,超过了 OpenAI-o1-0912 的性能(86.6%)。这一图表有力地证明了强化学习在提升模型推理能力方面的显著效果,尤其是在数学推理任务上,DeepSeek-R1-Zero 通过纯强化学习实现了从较低水平到接近甚至超越现有先进模型的飞跃。
DeepSeek-R1-Zero 平均响应长度变化
本图展示了 DeepSeek-R1-Zero 在强化学习训练过程中,模型生成的平均响应长度的变化。
图中显示,随着训练的进行,DeepSeek-R1-Zero 生成的响应长度逐渐增加,这表明模型在训练过程中自然地学会了分配更多的“思考时间”来解决问题。这种响应长度的增加反映了模型推理过程的复杂性和深度的提升,说明强化学习不仅提升了模型的性能,还促使模型自主发展出更详细、更深入的推理策略。这一现象揭示了强化学习在推动模型自我进化和提升推理能力方面的强大潜力。
实验结果
本表格展示了 DeepSeek-R1 模型在一系列基准测试中的详细性能对比,涵盖了教育知识任务、代码能力、数学推理以及语言能力等多个领域。
表格中对比了 DeepSeek-R1 与其他代表性模型(如 Claude-3.5-Sonnet、GPT-4o、OpenAI-o1 系列等)在不同任务上的表现,结果显示 DeepSeek-R1 在多个关键任务上取得了显著的性能提升,尤其是在数学推理和编程任务中,其表现与 OpenAI-o1-1217 相当甚至略胜一筹。
-- END --
关注“
学姐带你玩AI
”公众号,
回复“
强化改进
”
领取强化学习2025idea合集+开源代码