专栏名称: dotNET跨平台

专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路，不局限于微软的技术栈，横跨Windows，Linux 主流平台

DeepSeek-R1论文解析，是什么引发AI领域强烈反响

dotNET跨平台 · 公众号 · · 2025-01-28 09:20

正文

DeepSeek-R1如同一颗重磅炸弹在全球引起了强烈的反响，，DeepSeek贡献的不仅仅是开源推理模型，同时它的论文如同AI大模型领域的一颗璀璨的宝石，吸引了很多业界大咖的关注，是什么引发AI领域强烈反响？我们有幸通过DeepSeek-R1的论文得到了一些启发，这篇论文详细阐述了使用大规模强化学习RL技术训练此类模型的方案。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
翻译：《DeepSeek-R1：通过强化学习激励大型语言模型的推理能力》

先简单回顾一下大模型的训练过程，大模型的训练通常分为三个阶段：

1. 预训练：在这个阶段，大模型通过大量的文本和代码进行预训练，以学习通用知识。这一步骤帮助模型熟练掌握预测序列中的下一个词（token）。例如，给定输入“写一个童话_”，模型可以合理地补全为“故事”。然而，预训练后，模型仍然难以遵循人类指令。下一阶段将解决这一问题。

2. 监督微调：在这个阶段，模型在指令数据集上进行微调。数据集中的每个样本由“指令Q-响应A”对组成，其中响应被用作标签。经过此阶段后，模型在遵循指令方面表现更好。

3. 强化学习：大模型通过反馈进一步改进。一种强大的方法是基于人类反馈的强化学习（RLHF），即根据人类反馈训练模型。然而，收集大规模、高质量的人类反馈，尤其是针对复杂任务，具有挑战性。因此，另一种常见方法是基于AI反馈的强化学习（RLAIF），即由AI模型提供反馈。为了使RLAIF有效，需要一个能力极强的模型来提供准确的反馈。

RLHF：Reinforcement learning from human feedback
RLAIF：Reinforcement Learning from AI Feedback

从DeepSeek-R1-Zero 模型说起

DeepSeek在训练 DeepSeek-R1-Zero 时，仅使用强化学习进行后期训练，跳过了监督微调阶段。

为了训练DeepSeek-R1-Zero，从拥有6710亿参数的预训练模型DeepSeek-V3-Base开始，监督微调阶段被完全省略。为了大规模运行强化学习，没有使用标准的人类或AI反馈强化学习，而是采用了一种基于规则的强化学习方法。

基于规则的强化学习Rule-based Reinforcement Learning

DeepSeek使用的独创的强化学习方法被称为组相对策略优化（GRPO，Group Relative Policy Optimization ）。一个问题和一个待训练的模型，把输入问题给到模型，并采样一组输出。每个输出包含一个推理过程和一个答案。GRPO方法观察这些采样输出，并为每个输出计算奖励得分训练模型生成优选的选择，根据预定义规则:

准确性：一组规则计算准确性奖励。例如，在具有确定性结果的数学问题中，我们可以可靠地检查模型提供的最终答案是否正确。对于具有预定义测试用例的代码问题，编译器会根据测试用例生成反馈。

格式：另一类规则创建格式奖励。在论文的下图中，我们可以看到模型被提示如何输出，推理过程放在“”标签内，答案放在“”标签内。格式奖励确保模型遵循这种格式。

这种基于规则的机制不使用神经网络模型生成奖励，简化并降低了训练过程的成本，使训练能够大规模进行。此外，研究人员发现，奖励模型可能会受到奖励攻击的影响，即模型发现一种漏洞或意外方式来最大化奖励，引发与预期目标不符。

DeepSeek-R1-Zero 性能洞察

下图是论文中DeepSeek-R1-Zero 与 OpenAI o1 的性能对比

在上面的论文表格中，我们看到了DeepSeek-R1-Zero与OpenAI的o1在推理相关基准测试中的对比。简直不可思议，DeepSeek-R1-Zero与o1相当，甚至在某些情况下超越了o1。下图展示了模型在AIME数据集上的训练进展。值得注意的是，AIME上的平均pass@1分数显著增加，从最初的15.6%跃升至令人印象深刻的71.0%，达到了与OpenAI的o1相当的水平！

AIME（Advanced Inference and Mathematical Evaluation）是一个用于评估模型推理和数学能力的基准数据集。它包含复杂的数学问题和推理任务，要求模型不仅能够生成答案，还需要展示详细的推理过程。
AIME 数据集被广泛用于评估LLM在复杂任务上的表现，尤其是在数学推理和逻辑推理领域。通过AIME，研究人员可以评估模型的多步推理能力、问题分解能力以及最终答案的准确性。

pass@1：

表示模型生成的第一响应的准确率。这是评估模型性能的常用指标，反映了模型在单次生成中的表现。

DeepSeek-R1-Zero 的自进化过程Self-evolution Process

自进化是指模型在训练过程中通过强化学习（RL）自主提升其推理能力的过程。DeepSeek-R1-Zero 的自进化过程展示了模型如何在没有外部干预的情况下，逐步优化其推理策略和响应生成能力。通过强化学习，模型自然地学会了在解决推理任务时分配更多的思考时间。令人惊讶的是，这一过程无需任何外部调整。

图片中的纵轴表示模型生成响应的平均长度（以token数量衡量）。响应长度的增加反映了模型在推理任务中分配更多“思考时间”的能力。
更长的响应通常意味着模型进行了更深入的推理和更详细的解释。
随着训练的进行，模型逐渐学会生成更长的响应，以解决更复杂的任务。

论文中的一个关键洞察是模型的自进化过程，如上图所示。x轴表示训练步数，即模型在训练过程中经历的迭代次数。随着训练步骤的增加，模型的响应长度逐步增加，表明模型在推理任务中分配了更多的计算资源，y轴表示响应长度，随着训练的进行，模型的响应长度增加。可以看出，DeepSeek-R1-Zero的响应长度随着训练步骤的增加显著增加。表现为：

初始阶段：响应长度较短，表明模型尚未掌握复杂的推理任务。
中期阶段：响应长度逐步增加，表明模型通过强化学习优化了推理能力。
最终阶段：响应长度达到较高水平，表明模型能够生成详细的推理过程，解决复杂的任务。

这些数据证实了自进化的关键特点：

自主性：模型的改进是内在的，而非通过外部调整或监督微调实现。
复杂性处理：随着训练的进行，模型能够处理越来越复杂的推理任务。
行为涌现：模型在训练过程中自发地展现出复杂行为，如反思（reflection）和探索替代解决方案。

顿悟时刻（Aha Moment）现象

论文中还提到一个非常有趣的现象，称为DeepSeek-R1-Zero的“顿悟时刻”。

顿悟时刻 是指模型在解决复杂问题时，突然意识到需要重新评估和修正其初始方法的关键时刻。这种行为类似于人类在解决问题时的“灵光一现”。

在DeepSeek-R1-Zero中的表现：

模型在解决方程 a−a+x=x 时，最初尝试通过平方和代数运算求解，但在某一刻意识到需要重新评估其方法。模型通过反思和重新推理，逐步优化其解决方案，展现出类似人类的复杂推理能力。

在这里说一下反思（Reflection），这个问题有不少朋友问过我“大模型的反思是不是与人类一样？”

在人工智能领域，模型的“反思”（Reflection）与人类的反思虽然表面上都涉及对自身推理过程的重新评估，但其本质机制、驱动因素和表现形式还是很大差异的。DeepSeek-R1-Zero的“反思”仍是基于规则和数据的计算优化，是指模型在生成响应过程中重新评估和修正其推理步骤的能力。这种行为使模型能够发现并纠正错误，从而提高推理的准确性。在DeepSeek-R1-Zero中，模型在解决方程时，最初的方法导致了一个复杂的多项式方程，但在某一刻意识到需要重新评估其方法。

人类的反思是主动的、有意识的心理活动，涉及对自身思考过程的觉察和批判性分析。反思常伴随情感因素（如挫败感、好奇心），驱动个体调整策略。模型的“反思”是通过算法（如强化学习）自动触发的，没有自我意识。人类通过积累经验调整认知框架，神经网络的物理结构（突触连接）随学习动态变化。模型的调整依赖训练数据分布和预设的优化目标（如GRPO中的规则）。

接下来，问题又来了:DeepSeek-R1-Zero这么强，为什么我们还需要为什么需要 DeepSeek-R1？

尽管 DeepSeek-R1-Zero 在推理能力上表现出色，但其在可读性和语言一致性方面的缺陷限制了实际应用场景的拓展。

一、可读性问题

由于DeepSeek-R1-Zero 采用基于规则的强化学习（GRPO）的奖励函数主要关注答案准确性和格式正确性，未直接优化文本可读性。例如，在数学问题中，模型可能因过度追求答案正确性而忽略推理步骤的清晰表达。另外，基础模型（DeepSeek-V3-Base）的预训练数据可能包含大量非结构化文本（如论坛讨论、多语言混合内容），导致模型生成时倾向于模仿此类风格。

因带来了以下问题：文本结构松散，生成的响应可能包含冗余步骤或不必要的细节，例如重复推导同一公式；逻辑连贯性不足，推理链可能断裂，导致用户难以追踪模型思路（如突然切换解题方法）；符号与自然语言混杂：在数学或代码生成任务中，符号与自然语言未合理分隔，降低可读性。

二、语言一致性问题

DeepSeek-V3-Base 的预训练数据可能包含多语言平行语料，导致模型隐式学习到语言混合模式。GRPO 的规则未明确限制语言选择，模型可能通过混合语言最大化奖励（如使用英文术语提高代码生成准确性）。例如，在中文输入下生成包含英文术语或代码片段的混合文本（如：“这个方程的 solution 是 x=1”）。在多轮对话中，模型可能无征兆切换语言（如用户用中文提问，模型部分用英文回答）。

这些问题使得DeepSeek-R1-Zero对用户不够友好。有趣的是，一项研究表明，引导模型使用单一语言会略微损害其性能。令人着迷的是，大语言模型通过使用多种语言学会了更好地表达自己，而人类通常只使用一种语言。

DeepSeek-R1 的训练流程

DeepSeek-R1训练流程分为四个阶段。

阶段1：冷启动（Cold Start）

解决可读性问题，从 DeepSeek-R1-Zero 的输出中筛选出高可读性、高准确性的样本（数构成冷启动数据集。通过小规模高质量监督微调（SFT），改善预训练模型（DeepSeek-V3-Base）的初始生成质量。在这个小型高质量数据集上加入监督微调阶段有助于 DeepSeek-R1 缓解在初始模型中观察到的可读性问题。

阶段2：推理强化学习（Reasoning RL）

目标是增强推理能力，通过强化学习（RL）优化模型在数学、代码、科学和逻辑推理任务中的表现。针对明确答案的任务（如数学问题），设计基于规则的奖励函数（如答案正确性、步骤完整性）。例如，在数学任务中，若模型生成答案正确且包含完整推导步骤，则给予高奖励值。

GRPO（组相对策略优化）：DeepSeek 自研的强化学习算法，通过采样多组响应并基于规则计算奖励，驱动模型偏好高质量输出。

聚焦于封闭式问题（如代码生成、方程求解），因其奖励规则易于定义。

DeepSeek-R1论文解析，是什么引发AI领域强烈反响

正文

阶段2：推理强化学习（Reasoning RL）

请到「今天看啥」查看全文