专栏名称: 架构师
架构师云集,三高架构(高可用、高性能、高稳定)、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流,以及结合互联网技术的架构调整,大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。
目录
相关文章推荐
51好读  ›  专栏  ›  架构师

白话DeepSeek-R1论文(一) | DeepSeek-R1:通过强化学习提升推理能力

架构师  · 公众号  ·  · 2025-02-03 22:33

正文

架构师(JiaGouX)
我们都是架构师!
架构未来,你来不来?




摘要

本文介绍了 DeepSeek-R1 这一新一代推理模型,旨在通过强化学习(RL)来提升大规模语言模型(LLMs)的推理能力。我们提出了两个版本的模型: DeepSeek-R1-Zero DeepSeek-R1 DeepSeek-R1-Zero 是通过大规模强化学习训练,而不依赖任何监督学习的初步微调,取得了令人惊讶的推理能力。然而,它在可读性和语言混合等方面仍存在挑战。为了解决这些问题,我们引入了 DeepSeek-R1 ,它在强化学习之前加入了冷启动数据,并通过多阶段训练进一步提升推理表现。 DeepSeek-R1 在推理任务上的表现与OpenAI的o1-1217模型相当。此外,我们还展示了如何通过将 DeepSeek-R1 的推理能力提炼到较小的模型中,从而让这些小模型也能表现出强大的推理能力。

我们开源了 DeepSeek-R1-Zero DeepSeek-R1 及六个从 DeepSeek-R1 提炼的小型模型(1.5B、7B、8B、14B、32B、70B),以便支持更广泛的研究。


1. 引言

近年来,大型语言模型(LLMs)在各个任务上的表现不断取得突破,接近了人工通用智能(AGI)的水平。特别是在推理任务方面,OpenAI的 o1系列 模型通过增加**思维链(CoT)**的推理长度,实现了在数学、编程和科学推理等任务上的显著提升。然而,在测试时如何有效地扩展推理能力仍然是一个未解难题。

以往的研究尝试了多种方法,包括基于过程的奖励模型、强化学习(RL)以及搜索算法等。然而,没有一种方法能够在推理能力上与OpenAI的o1系列模型相媲美。

本文的目标是通过 纯强化学习 来提高大规模语言模型的推理能力,不依赖任何监督学习数据。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并通过 GRPO (Group Relative Policy Optimization)这一强化学习框架,推动模型在推理任务上的表现不断提升。经过数千步的强化学习训练, DeepSeek-R1-Zero 展现出了非常强大的推理能力,在AIME 2024和Codeforces等基准测试中取得了令人瞩目的成绩。

Group Relative Policy Optimization(GRPO)摒弃了通常与策略模型大小相同的评论模型,改为通过群组得分来估计基准。具体而言,对于每个问题 𝑞,GRPO 从旧策略 𝜋𝜃𝑜𝑙𝑑 中采样一组输出 {𝑜1,𝑜2,··· ,𝑜𝐺},然后通过最大化以下目标来优化策略模型 𝜋𝜃:

然而, DeepSeek-R1-Zero 在可读性和语言混合问题上仍面临挑战。为了解决这些问题并进一步提升推理表现,我们推出了 DeepSeek-R1 ,通过引入冷启动数据和多阶段训练,解决了这些问题,使其推理能力更加健全。

此外,我们还展示了 模型蒸馏(Distillation) 的效果,将 DeepSeek-R1 的推理能力提炼到小型模型中,这些小模型虽然在参数量上较少,但同样能够进行强力的推理。


1.1 主要贡献

1.1.1 后期训练:通过强化学习提升基础模型

  • DeepSeek-R1-Zero :我们首次通过 纯强化学习 对基础模型进行训练,完全不依赖监督学习。 DeepSeek-R1-Zero 通过强化学习自主发展出强大的推理行为,如自我验证、反思和生成长思维链等。这一突破性成果验证了在没有监督数据的情况下,通过强化学习来激励模型的推理能力。

  • DeepSeek-R1 :我们提出了一个多阶段训练流程,结合冷启动数据和强化学习,通过两轮强化学习和两轮监督微调(SFT),进一步提升了模型的推理能力。经过训练, DeepSeek-R1 的推理能力已经与OpenAI的o1-1217模型相当,且在多个任务上表现优异。

1.1.2 模型蒸馏:赋予小模型推理能力

  • 模型蒸馏 :我们展示了通过将大模型的推理模式提炼到小型模型中,可以在较小的计算资源下也实现出色的推理表现。这个过程不仅提升了小模型的推理能力,还提高了其在多个基准测试中的成绩。

  • 我们将 DeepSeek-R1 蒸馏成多个较小的模型,如 DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Llama-70B ,这些模型在AIME 2024、MATH-500等测试中取得了超越现有模型的好成绩。


1.1.3 开源共享

  • 我们将 DeepSeek-R1 DeepSeek-R1-Zero 及六个蒸馏模型(从1.5B到70B)开源,并提供了API接口,方便研究人员进一步开发和应用这些模型。


1.2 评估结果总结

  • 推理任务 DeepSeek-R1 AIME 2024 上的 Pass@1 79.8% ,稍微超过了 OpenAI-o1-1217 。在 MATH-500 上,它达到了 97.3% Pass@1 ,远超其他模型。同时,在 编程相关任务 中, DeepSeek-R1 也表现出了专业水准,在 Codeforces 上达到了 2,029 Elo 评分,超过了96.3%的竞争者。

  • 知识任务 :在 MMLU MMLU-Pro GPQA Diamond 等知识类基准测试中, DeepSeek-R1 也取得了优秀成绩,表现略低于OpenAI-o1-1217,但优于其他闭源模型,显示出其在教育类任务中的竞争力。

  • 其他任务 DeepSeek-R1 在非考试类任务(如 创意写作 问题回答 摘要 等)中同样表现强劲, AlpacaEval 2.0 ArenaHard 胜率分别为87.6% 92.3% ,展示了其在开放性问题回答上的强大能力。

  • 长上下文任务表现 DeepSeek-R1 在需要长上下文理解的任务上,如 AlpacaEval 2.0 LiveCodeBench ,表现明显超越了 DeepSeek-V3


2. 方法

2.1 概述

传统上,许多方法都依赖大量的监督数据来提升模型的推理能力。本文提出的方法表明, 通过强化学习 就能够显著提升推理能力,而不依赖于监督学习数据。我们的工作可以分为两个阶段:

  1. DeepSeek-R1-Zero :直接在基础模型上应用强化学习,不依赖任何冷启动数据或监督学习。

  2. DeepSeek-R1 :通过冷启动数据、监督微调(SFT)和强化学习的多阶段训练,进一步精炼推理能力。

此外,我们还通过 蒸馏 方法,将 DeepSeek-R1 的推理能力提炼到小型模型中,达到在较小计算资源下也能进行强力推理的效果。


2.2 DeepSeek-R1-Zero:基础模型的强化学习

强化学习算法 :我们采用了**Group Relative Policy Optimization(GRPO)**来进行强化学习训练,通过避免使用传统的评估模型,改为基于输出群体评分来估算基线。这种方法可以有效降低训练成本,优化模型的推理表现。

奖励建模 :我们使用基于规则的奖励系统,包含两种主要奖励类型:

  • 准确性奖励 :用于判断模型回答的准确性。

  • 格式奖励 :强制模型在推理过程中将思维过程置于特定标签(例如 )之间,以便提高可读性。


2.2.4 DeepSeek-R1-Zero的表现、自我进化过程和“顿悟时刻”

表现 :在强化学习训练过程中, DeepSeek-R1-Zero 表现出显著的性能提升。以 AIME 2024 为例, Pass@1 15.6% 提高到 71.0% ,采用多数投票后,成绩进一步提升至 86.7% ,超越了OpenAI的o1-0912。

自我进化 :模型通过强化学习训练,逐渐学会处理更复杂的推理任务。 DeepSeek-R1-Zero 表现出内在的推理进化能力,通过延长测试计算时间,生成更深入的推理过程。

顿悟时刻 :在训练过程中,出现了“顿悟时刻”,即模型开始重新评估自己的初步推理方法,主动分配更多的思考时间,解决问题时展现出了新的推理策略。


2.3 DeepSeek-R1:带冷启动的强化学习

为了提升 可读性 和避免 语言混合 ,我们引入了冷启动数据,在 DeepSeek-R1 的训练中,通过微调基础模型来进行冷启动,从而提高了模型的推理质量和可读性。


结论与未来工作

我们展示了通过 强化学习 提升推理能力的可行性, DeepSeek-R1 在多项推理任务中表现出色,且通过 蒸馏 技术,成功将其推理能力转移到小型模型中。未来的研究将专注于提升 DeepSeek-R1 在更多领域(如多轮对话、复杂角色扮演等)中的表现,解决语言混合问题,并进一步优化推理模型在软件工程任务中的效率。

如喜欢本文,请点击右上角,把文章分享到朋友圈
如有想了解学习的技术点,请留言给若飞安排分享







请到「今天看啥」查看全文