专栏名称: dotNET跨平台
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,Linux 主流平台
目录
相关文章推荐
中国政府网  ·  蛇年首个寒潮预警!局地降温超10℃→ ·  昨天  
半月谈  ·  热搜第一!微信又上新功能 ·  昨天  
长安街知事  ·  央视主播上新,“00后”! ·  3 天前  
51好读  ›  专栏  ›  dotNET跨平台

DeepSeek-R1论文解析,是什么引发AI领域强烈反响

dotNET跨平台  · 公众号  ·  · 2025-01-28 09:20

正文

DeepSeek-R1如同一颗重磅炸弹在全球引起了强烈的反响,,DeepSeek贡献的不仅仅是开源推理模型,同时它的论文如同AI大模型领域的一颗璀璨的宝石,吸引了很多业界大咖的关注,是什么引发AI领域强烈反响?我们有幸通过DeepSeek-R1的论文得到了一些启发,这篇论文详细阐述了使用大规模强化学习RL技术训练此类模型的方案。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

翻译:《DeepSeek-R1:通过强化学习激励大型语言模型的推理能力》

先简单回顾一下大模型的训练过程,大模型的训练通常分为三个阶段:

1. 预训练:在这个阶段,大模型通过大量的文本和代码进行预训练,以学习通用知识。这一步骤帮助模型熟练掌握预测序列中的下一个词(token)。例如,给定输入“写一个童话_”,模型可以合理地补全为“故事”。然而,预训练后,模型仍然难以遵循人类指令。下一阶段将解决这一问题。

2. 监督微调:在这个阶段,模型在指令数据集上进行微调。数据集中的每个样本由“指令Q-响应A”对组成,其中响应被用作标签。经过此阶段后,模型在遵循指令方面表现更好。

3. 强化学习:大模型通过反馈进一步改进。一种强大的方法是基于人类反馈的强化学习(RLHF),即根据人类反馈训练模型。然而,收集大规模、高质量的人类反馈,尤其是针对复杂任务,具有挑战性。因此,另一种常见方法是基于AI反馈的强化学习(RLAIF),即由AI模型提供反馈。为了使RLAIF有效,需要一个能力极强的模型来提供准确的反馈。

RLHF:Reinforcement learning from human feedback

RLAIF:Reinforcement Learning from AI Feedback

 从DeepSeek-R1-Zero 模型说起

DeepSeek在训练 DeepSeek-R1-Zero 时,仅使用强化学习进行后期训练,跳过了监督微调阶段。

为了训练DeepSeek-R1-Zero,从拥有6710亿参数的预训练模型DeepSeek-V3-Base开始,监督微调阶段被完全省略。为了大规模运行强化学习,没有使用标准的人类或AI反馈强化学习,而是采用了一种基于规则的强化学习方法。

基于规则的强化学习Rule-based Reinforcement Learning

DeepSeek使用的独创的强化学习方法被称为组相对策略优化(GRPO,Group Relative Policy Optimization )。一个问题和一个待训练的模型,把输入问题给到模型,并采样一组输出。每个输出包含一个推理过程和一个答案。GRPO方法观察这些采样输出,并为每个输出计算奖励得分训练模型生成优选的选择,根据预定义规则:

准确性:一组规则计算准确性奖励。例如,在具有确定性结果的数学问题中,我们可以可靠地检查模型提供的最终答案是否正确。对于具有预定义测试用例的代码问题,编译器会根据测试用例生成反馈。

格式:另一类规则创建格式奖励。在论文的下图中,我们可以看到模型被提示如何输出,推理过程放在“”标签内,答案放在“”标签内。格式奖励确保模型遵循这种格式。

这种基于规则的机制不使用神经网络模型生成奖励,简化并降低了训练过程的成本,使训练能够大规模进行。此外,研究人员发现,奖励模型可能会受到奖励攻击的影响,即模型发现一种漏洞或意外方式来最大化奖励,引发与预期目标不符。

DeepSeek-R1-Zero 性能洞察

下图是论文中DeepSeek-R1-Zero 与 OpenAI o1 的性能对比

在上面的论文表格中,我们看到了DeepSeek-R1-Zero与OpenAI的o1在推理相关基准测试中的对比。简直不可思议,DeepSeek-R1-Zero与o1相当,甚至在某些情况下超越了o1。下图展示了模型在AIME数据集上的训练进展。值得注意的是,AIME上的平均pass@1分数显著增加,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI的o1相当的水平! 

AIME(Advanced Inference and Mathematical Evaluation) 是一个用于评估模型推理和数学能力的基准数据集。它包含复杂的数学问题和推理任务,要求模型不仅能够生成答案,还需要展示详细的推理过程。

AIME 数据集被广泛用于评估LLM在复杂任务上的表现,尤其是在数学推理和逻辑推理领域。通过AIME,研究人员可以评估模型的多步推理能力、问题分解能力以及最终答案的准确性。


pass@1:



表示模型生成的第一响应的准确率。这是评估模型性能的常用指标,反映了模型在单次生成中的表现。


DeepSeek-R1-Zero 的自进化过程Self-evolution Process

自进化是指模型在训练过程中通过强化学习(RL)自主提升其推理能力的过程。DeepSeek-R1-Zero 的自进化过程展示了模型如何在没有外部干预的情况下,逐步优化其推理策略和响应生成能力。通过强化学习,模型自然地学会了在解决推理任务时分配更多的思考时间。令人惊讶的是,这一过程无需任何外部调整。

图片中的纵轴表示模型生成响应的平均长度(以token数量衡量)。响应长度的增加反映了模型在推理任务中分配更多“思考时间”的能力。

更长的响应通常意味着模型进行了更深入的推理和更详细的解释。

随着训练的进行,模型逐渐学会生成更长的响应,以解决更复杂的任务。

论文中的一个关键洞察是模型的自进化过程,如上图所示。x轴表示训练步数,即模型在训练过程中经历的迭代次数。随着训练步骤的增加,模型的响应长度逐步增加,表明模型在推理任务中分配了更多的计算资源,y轴表示响应长度,随着训练的进行,模型的响应长度增加。可以看出,DeepSeek-R1-Zero的响应长度随着训练步骤的增加显著增加。表现为:

  • 初始阶段:响应长度较短,表明模型尚未掌握复杂的推理任务。

  • 中期阶段:响应长度逐步增加,表明模型通过强化学习优化了推理能力。

  • 最终阶段:响应长度达到较高水平,表明模型能够生成详细的推理过程,解决复杂的任务。

这些数据证实了自进化的关键特点:

  • 自主性:模型的改进是内在的,而非通过外部调整或监督微调实现。

  • 复杂性处理:随着训练的进行,模型能够处理越来越复杂的推理任务。

  • 行为涌现:模型在训练过程中自发地展现出复杂行为,如反思(reflection)和探索替代解决方案。


 顿悟时刻(Aha Moment)现象

论文中还提到一个非常有趣的现象,称为DeepSeek-R1-Zero的“顿悟时刻”。

顿悟时刻 是指模型在解决复杂问题时,突然意识到需要重新评估和修正其初始方法的关键时刻。这种行为类似于人类在解决问题时的“灵光一现”。

  • 在DeepSeek-R1-Zero中的表现

    • 模型在解决方程 aa+x=x 时,最初尝试通过平方和代数运算求解,但在某一刻意识到需要重新评估其方法。模型通过反思和重新推理,逐步优化其解决方案,展现出类似人类的复杂推理能力。

在这里说一下反思(Reflection),这个问题有不少朋友问过我“大模型的反思是不是与人类一样?” 
在人工智能领域,模型的“反思”(Reflection)与人类的反思虽然表面上都涉及对自身推理过程的重新评估,但其本质机制、驱动因素和表现形式还是很大差异的。DeepSeek-R1-Zero的“反思”仍是基于规则和数据的计算优化,是指模型在生成响应过程中重新评估和修正其推理步骤的能力。这种行为使模型能够发现并纠正错误,从而提高推理的准确性。在DeepSeek-R1-Zero中,模型在解决方程时,最初的方法导致了一个复杂的多项式方程,但在某一刻意识到需要重新评估其方法。
人类的反思是主动的、有意识的心理活动,涉及对自身思考过程的觉察和批判性分析。反思常伴随情感因素(如挫败感、好奇心),驱动个体调整策略。模型的“反思”是通过算法(如强化学习)自动触发的,没有自我意识。人类通过积累经验调整认知框架,神经网络的物理结构(突触连接)随学习动态变化。模型的调整依赖训练数据分布和预设的优化目标(如GRPO中的规则)。
接下来,问题又来了:DeepSeek-R1-Zero这么强,为什么我们还需要为什么需要 DeepSeek-R1?
尽管 DeepSeek-R1-Zero 在推理能力上表现出色,但其在 可读性 和 语言一致性 方面的缺陷限制了实际应用场景的拓展。
  • 一、可读性问题

由于DeepSeek-R1-Zero 采用基于规则的强化学习(GRPO)的奖励函数主要关注 答案准确性 和 格式正确性,未直接优化文本可读性。例如,在数学问题中,模型可能因过度追求答案正确性而忽略推理步骤的清晰表达。另外,基础模型(DeepSeek-V3-Base)的预训练数据可能包含大量非结构化文本(如论坛讨论、多语言混合内容),导致模型生成时倾向于模仿此类风格。

因带来了以下问题:文本结构松散,生成的响应可能包含冗余步骤或不必要的细节,例如重复推导同一公式;逻辑连贯性不足,推理链可能断裂,导致用户难以追踪模型思路(如突然切换解题方法);符号与自然语言混杂:在数学或代码生成任务中,符号与自然语言未合理分隔,降低可读性。

  • 二、语言一致性问题

DeepSeek-V3-Base 的预训练数据可能包含多语言平行语料,导致模型隐式学习到语言混合模式。GRPO 的规则未明确限制语言选择,模型可能通过混合语言最大化奖励(如使用英文术语提高代码生成准确性)。例如,在中文输入下生成包含英文术语或代码片段的混合文本(如:“这个方程的 solution 是 x=1”)。在多轮对话中,模型可能无征兆切换语言(如用户用中文提问,模型部分用英文回答)。

这些问题使得DeepSeek-R1-Zero对用户不够友好。有趣的是,一项研究表明,引导模型使用单一语言会略微损害其性能。令人着迷的是,大语言模型通过使用多种语言学会了更好地表达自己,而人类通常只使用一种语言。

DeepSeek-R1 的训练流程

DeepSeek-R1训练流程分为四个阶段。

阶段1:冷启动(Cold Start)

解决可读性问题,从 DeepSeek-R1-Zero 的输出中筛选出高可读性、高准确性的样本(数构成冷启动数据集。通过小规模高质量监督微调(SFT),改善预训练模型(DeepSeek-V3-Base)的初始生成质量。在这个小型高质量数据集上加入监督微调阶段有助于 DeepSeek-R1 缓解在初始模型中观察到的可读性问题。

阶段2:推理强化学习(Reasoning RL)


目标是增强推理能力,通过强化学习(RL)优化模型在数学、代码、科学和逻辑推理任务中的表现。针对明确答案的任务(如数学问题),设计基于规则的奖励函数(如答案正确性、步骤完整性)。例如,在数学任务中,若模型生成答案正确且包含完整推导步骤,则给予高奖励值。

GRPO(组相对策略优化):DeepSeek 自研的强化学习算法,通过采样多组响应并基于规则计算奖励,驱动模型偏好高质量输出。

聚焦于封闭式问题(如代码生成、方程求解),因其奖励规则易于定义。





请到「今天看啥」查看全文