专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

专知 · 公众号 · · 2025-02-26 11:00

正文

选自Deep (Learning) Focus

作者：Cameron R. Wolfe

编译：Panda

自 OpenAI 发布 o1-mini 模型以来，推理模型就一直是 AI 社区的热门话题，而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。

近日，Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「 揭秘推理模型 」的深度长文，详细梳理了自 o1-mini 开始至今的推理模型发展史，并详细介绍了让标准 LLM 变成推理模型的具体技术和方法。

机器之心编译了这篇文章以飨读者，同时我们还在文末梳理了 17 篇我们之前发布的与推理模型相关的文章一并奉上。

原文地址： https://cameronrwolfe.substack.com/p/demystifying-reasoning-models

前些年，大型语言模型（LLM）已经形成了相对固定的流程。

首先，在来自互联网的原始文本数据上预训练语言模型。之后，对齐这些模型，也就是让它们的输出更符合人类的偏好，这会用到监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术。

不管是预训练还是对齐，都对模型质量至关重要，但驱动这一范式发展的大部分动力却来自 Scaling Law—— 使用更多数据训练更大的模型，就能得到更好的结果。

标准 LLM 的训练流程

近段时间，LLM 研究中出现了一个全新的范式：推理。与标准 LLM 相比，推理模型解决问题的方式完全不同。特别是，它们在提供问题的最终答案之前会花费一些时间「思考」。训练能够有效思考（例如，分解问题、检测思维中的错误、探索替代解决方案等）的模型需要新的策略，通常涉及大规模强化学习（RL）。此外，此类模型还会为通过强化学习和推理进行训练的范式涌现出新的 Scaling Law。

来自 [4]

本文将介绍有关推理模型的最新进展的更多信息。首先，我们将重点介绍 OpenAI 最早提出的几种（封闭式）推理模型。我们将在上下文中解释 LLM 推理能力的基本思想。之后，我们将探索最近提出的（开放式）推理模型，概述从头开始创建此类模型的必要细节。推理模型与标准 LLM 不同。但不用担心。LLM 的许多关键概念仍然适用于推理模型。我们将在整个过程中澄清它们之间的重要区别。

推理时代

就在 AI 发展看起来要放缓之际，推理模型开始普及，LLM 的能力开始陡然提升。OpenAI 首先发布了 o1-preview [4]，随后是一系列蒸馏版（更小）模型，包括 o1-mini 以及 o3 的一些变体版本。其它公司也纷纷跟进，包括谷歌的 Gemini 2.0 Flash Thinking。这一节将探讨这些最早的封闭式推理模型及其工作原理背后的基本思想。

最早的推理模型：o1 和 o1-mini

OpenAI 发布 o1-preview [4, 5] 时明确了两件事：

推理模型可以非常准确地解决可验证的任务，比如数学和编程任务。
推理模型解决这些问题的方法与传统 LLM 的方法截然不同。

长思维链 。推理模型与标准 LLM 的主要区别在于在回答问题之前会进行「思考」。推理模型的思考就是 LLM 输出的长思维链（有时也被称为推理迹线或轨迹）。长思维链的生成方式与任何其他文本序列无异。然而，这些推理轨迹表现出了非常有趣的特性 —— 它们更类似于搜索算法而不是原始文本生成。举个例子，推理模型可能会：

仔细考虑复杂问题的每个部分。
将复杂问题分解为更小的可解决部分。
批评其自身的（部分）解决方案并发现错误。
探索许多替代解决方案。

有关这些推理轨迹的一些具体示例，请参阅 OpenAI 博客： https://openai.com/index/learning-to-reason-with-llms/

值得注意的是，OpenAI 推理模型使用的长思维链隐藏在其内部，这意味着在与模型交互时，用户看不见它们。用户只能看到模型编写的长思维链摘要，如下所示：

推理模型的长思维链输出为我们提供了一种控制 LLM 推理时间计算的简单方法。如果我们想花费更多计算来解决问题，我们可以简单地生成更长的思维链。同样，不太复杂的问题可以用较短的思维链解决，从而节省推理时间的计算。

推理能力 。最初的推理模型实际上在许多方面都不如标准 LLM，但它们将 LLM 的推理能力提高了几个数量级。例如，o1-preview 的推理表现总是优于 GPT-4o，甚至在大多数复杂推理任务上能与人类专家的表现相媲美。为了实现这些结果，o1-preview 使用最大化的推理时间计算以及 i) 单个输出样本（柱状图主干）或 ii) 64 个并行输出样本中的多数投票（柱状图增高部分）进行评估。

o1 系列模型与 GPT-4o 在多个推理任务上的比较，来自 [5]

o1-preview 之后，OpenAI 的 o1（preview 发布几个月后发布的 o1 的完整版本）在美国数学奥林匹克资格考试（AIME 2024）中名列前 500 名，在 Codeforces 上排名在竞赛人类程序员的第 11 个百分位之内。作为参考，GPT-4o 仅解决了 12% 的 AIME 问题，而 o1 解决了 74% 到 93% 的问题，具体取决于推理设置。有关 o1 和 GPT-4o 性能的更详细比较，请参见下图。

o1 明显优于 GPT-4o（来自 [5]）

同样，o1-mini（o1 的更便宜、更快的版本）也具有令人印象深刻的推理能力，不过相比于完整版 o1 模型，其成本降低了 80%。虽然与 o1 相比，o1-mini 的世界知识有限，但它在编程任务方面尤其出色，而且考虑到其效率，其表现非常出色。

当前最佳的推理模型：o3 和 o3-mini

OpenAI o3 在 ARC-AGI 上的性能

在宣布和发布 o1 模型后不久，OpenAI 宣布了 o3——o1 系列中最新的模型。这个模型最初只是宣布（未发布）。我们能够在几个值得注意的基准上看到该模型的性能（由 OpenAI 测量），但实际上无法使用该模型。OpenAI 发布的指标非常惊人。事实上，o3 的表现让很多人感到震惊。o3 最显著的成就是：

在 ARC-AGI 基准测试中得分为 87.5%——AGI 的「北极星」，五年来一直保持不败 ——GPT-4o 的准确率为 5%。o3 是第一个在 ARC-AGI 上超过人类水平 85% 的模型。
在 SWE-Bench Verified 上的准确率为 71.7%，在 Codeforces 上的 Elo 得分为 2727，使 o3 跻身全球前 200 名竞争性程序员之列。
在 EpochAI 的 FrontierMath 基准测试中的准确率为 25.2%，相比之前最佳的 2.0% 的准确率大幅提高。

然而，公众无法访问 o3 模型来验证任何这些结果。在撰写本文时，完整的 o3 模型仍未发布，但 OpenAI 最近发布了该模型的较小版本 ——o3-mini [6]。

与 OpenAI 的其他推理模型相比，o3-mini 更具成本效益且更易于投入生产。例如，此模型支持函数调用、Web 搜索和结构化输出等功能。o3-mini 还具有多种设置，包括 low、medium 和 high，这指定了用于解决问题时执行的推理量。此设置可以直接在 API 请求中指定，并且该模型的表现非常惊人 —— 在许多情况下与 o1 相当，具体取决于推理工作量的级别。

o3-mini 性能详情（来自 [6]）

在大多数情况下，推理工作量 low 的 o3-mini 与 o1-mini 的性能相当，而推理工作量 high 的 o3-mini 的性能则超过 OpenAI 发布的所有其他推理模型（包括完整版 o1 模型）。

与之前的推理模型相比，o3-mini 还具有更好的世界知识（即提高了事实性），效率明显更高，并且在人类偏好研究中得分更高。特别是，[6] 中提到，在内部 A/B 测试期间，「o3-mini 的响应速度比 o1-mini 快 24%，平均响应时间为 7.7 秒，而 o3-mini 为 10.16 秒。」o3-mini 是 OpenAI 的 o1 式推理模型中（迄今为止）发布的最高效的模型。

o3-mini 与 o1-mini 在 STEM / 非 STEM 提示词上的胜率（来自 [6]）

其它模型提供方。OpenAI 发布 o1 式模型后，其他模型提供方也迅速跟进。例如，谷歌最近发布了实验性的 Gemini-2.0 Flash Thinking，它保留了 Gemini 模型的标志性长上下文 ——1M token 上下文窗口，并在关键可验证任务（例如 AIME 和 GPQA）上取得了可观的指标。然而，这个模型的性能仍然落后于 o1 和 o3-mini。

最近，Grok-3 的推理测试版发布，非常引人注目。如下所示，Grok-3 推理模型在 high 推理工作量下超过了 o3-mini 的性能，甚至在少数情况下接近完整的 o3 模型；例如，AIME'24 的准确率为 96%，而 o3 的准确率为 97%。使用大型新计算集群进行训练的 Grok-3 令人印象深刻（尤其是考虑到 xAI 的年轻）。在撰写本文时，Grok-3 的推理测试版是与 OpenAI 推理模型最接近的竞争对手。

推理模型的基准

在进一步了解推理模型的工作原理之前，让我们更深入地了解它们的性能。要真正了解这些模型的能力，我们需要做的不仅仅是查看指标 —— 我们需要检查这些模型正在解决的问题的具体示例。例如，考虑 GSM8K（如下所示），这是一个小学水平的数学基准。这些问题可能看起来微不足道，但 LLM 们多年来一直在努力准确地解决这个基准。

GSM8K 中的示例问题

随着推理模型的出现，这个基准已经完全饱和 —— 我们不再能用它来有意义地评估最佳推理模型。相反，我们开始用 LLM 解决更难的问题。

AIME 2024 中的示例问题

例如，考虑 AIME 2024 中的第 15 个问题，如上所示。这个问题相当复杂，超过了 GSM8K 中的算术推理问题。有（至少）六种不同的方法可以解决这个问题，所有这些方法都需要掌握高级数学技巧（例如导数、数论或拉格朗日乘数）。

此外，推理模型正在解决的复杂基准还不仅仅是数学！例如，GPQA [7] 包含来自多个科学领域的数百道多项选择题；例如，生物学、物理学和化学。所有这些问题都是由领域专家编写的，经过验证，它们既非常困难，又无法通过互联网搜索找到答案，这意味着即使有足够的时间和不受限制的互联网访问，非专家也很难解决这些问题。

「我们确保这些问题是高质量且极其困难的：拥有或正在攻读相应领域博士学位的专家的准确率达到 65%，而技能娴熟的非专家验证者准确率仅为 34%，并且他们即便可以不受限制地访问网络，也平均花费了超过 30 分钟的时间。」 - 来自 [7]

ARC-AGI 基准 —— 被描述为「迈向 AGI 的重要垫脚石」—— 涉及各种基于网格的谜题，其中 LLM 必须在输入输出网格中学习模式，并在最终输出示例中完美复制这种学习到的模式。大多数 LLM 都很难解决这些难题（例如，GPT-4o 的准确率仅为 5%），但推理模型在这个基准上表现相当不错 —— 准确率可达 30-90%，具体取决于计算预算。

至少可以说，这些是推理 LLM 开始解决的不同级别的（非平凡）问题。尽管这些基准测试难度很大，但现代推理模型的能力也很强 —— 据报道，OpenAI 的 o3 模型在 AIME 2024 上取得了近 97% 的分数。在人工检查其中一些问题后，我们可以真正理解这个结果的重要性。

推理模型基础

虽然上面介绍的推理模型显然令人印象深刻，但都是封闭模型。因此，我们不知道它们实际上是如何工作的。我们得到的唯一信息是上面的引文和如下所示的图表。

（来自 [5]）

然而，从这些有限的信息中，我们可以得出一些有用的结论。主要而言，扩展推理模型涉及两个关键组件：

通过强化学习进行更多训练。
更多推理时间计算（即推理时间扩展）。

尽管 OpenAI 并未透露扩展推理模型这两个组件的方法背后的许多细节，但仍有大量关于此主题的研究发表。为了提供更多背景信息，让我们简要介绍一下其中一些工作，加上 OpenAI 分享的细节，可以让我们大致了解推理模型训练和使用的一些关键概念。

具有可验证奖励的强化学习

关于 o1 式模型，我们应该注意到的一个细节是，它们主要用于本质上可验证的问题并根据这些问题进行评估；例如数学和编程。但是，在这种情况下，「可验证（verifiable）」到底是什么意思？

首先，我们假设我们可以获取 i）问题的基本答案或 ii）可用于验证正确性的某些基于规则的技术。

通过精确字符串匹配验证数学问题

例如，我们可以为大多数数学问题定义一个基本答案 —— 在 GSM8K 中，这是使用 #### 语法完成的。然后，我们可以从 LLM 的输出中提取最终答案，并使用基本字符串匹配将此答案与 ground truth 答案进行比较；见上图。类似地，如果我们为编程问题准备了测试用例，我们可以简单地执行由 LLM 生成的代码并检查提供的解决方案是否满足所有测试用例。

「可验证奖励的强化学习（RLVR）可以看作是现有引导语言模型推理方法的简化形式或具有执行反馈的更简单形式的强化学习，其中我们只需使用答案匹配或约束验证作为二进制信号来训练模型。」 - 来自 [13]

说一个领域是「可验证的」并不意味着我们可以自动验证该领域问题的任意解决方案。相反，我们经常需要访问 ground truth 答案（通常从人类那里获得）进行验证。

但是，有些行为可以使用简单规则而不是 ground truth 来验证。例如，我们可以使用一组硬编码规则执行简单检查来确定推理模型是否具有正确的输出格式、是否遵循某些指令或是否产生特定长度的输出（例如，o3-mini 使用的 low、medium 或 high 推理工作量）。

验证复杂性 。根据我们正在解决的问题，验证 LLM 的输出可能会变得非常复杂。即使对于数学问题，验证 LLM 的答案与基本事实之间的匹配也很困难。例如，解答可能以不同的形式或格式呈现，从而导致假阴性验证。在这些情况下，简单的字符串匹配可能还不够！相反，我们可以提示 LLM，让其告诉我们这两个解是否匹配，这已被发现可以大大减少不正确的验证 [14]。对于代码，实现验证也很困难 —— 它需要构建一个数据管道，并且其要非常有效地在训练设置中执行和验证测试用例。

神经验证 。除了上面概述的可验证问题之外，我们还可以考虑较弱的验证形式。例如，创意写作是一项难以验证的任务。但是，我们可以：

训练神经奖励模型或验证器。
使用此模型对 LLM 输出进行评分。
使用预测分数作为奖励或验证信号。

这样的设置与基于人类反馈的强化学习（RLHF）非常相似。在这种情况下，会训练奖励模型根据模型响应的正确性或质量执行二元验证。但是，使用神经验证器会有奖励 hacking 的风险，尤其是在执行大规模强化学习时。模型的训练时间更长，并且会对奖励图景进行更多探索，从而增加了奖励 hacking 的风险。因此，许多最近的推理模型都避开了这种方法。

「我们在开发 DeepSeek-R1-Zero 时没有应用神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励 hacking 攻击的影响，而重新训练奖励模型需要额外的训练资源，这会使整个训练流程变得复杂。」 - 来自 [1]

用可验证的奖励学习 。我们现在了解了验证，但如何使用验证来训练 LLM？思路很简单：直接将验证结果用作使用强化学习进行训练的奖励信号。有很多不同的方法可以实现这个思路（例如，过程奖励或纯强化学习），但它们的共同主题是使用强化学习根据可验证的奖励学习。这是所有现代推理模型根基的基本概念。

（来自 [13]）

对于使用强化学习从可验证的奖励中学习的方法，可以参考 Sasha Rush 的这个视频： https://youtu.be/6PEJ96k1kiw

推理时间策略：思路链和解码

我们可以通过两种基本方法来增加语言模型在推理时消耗的计算量：

生成更多 token（即更长的输出序列）。
生成多个输出。

在本节中，我们将更详细地介绍这些技术，探索如何通过思维链和不同的解码策略（如并行解码与顺序解码）在 LLM 中实际实现它们。

（来自 [8]）

思维链 。我们已经知道推理模型使用长思维链作为推理媒介。在 [8] 中提出，最简单的层面上，思维链只是 LLM 为其自身输出提供的一种解释。在大多数情况下，这些解释是在 LLM 生成最终答案之前编写的，允许模型在生成答案时将其解释用作上下文。

推理模型使用的长思维链与标准思维链有很大不同。标准思维链简洁易读。长思维链有几千个 token。虽然它可以用于解释模型，但长思维链并未针对人类可读性进行优化。相反，它是一种宽泛的推理轨迹，以详细的方式解决问题，并包含各种复杂的推理行为（例如，回溯和自我优化）。

「我们决定不向用户展示原始的思维链…… 我们努力通过教导模型从答案中的思维链中重现有用的想法来部分弥补 [这一决定]。对于 o1 模型系列，我们会展示模型生成的思维链摘要。」 - 来自 [5]

此外，推理模型会在逻辑上将其思维链与模型的最终输出分开。例如，OpenAI 不会向用户展示长思维链，而是提供 LLM 生成的长思维链摘要来补充推理模型的最终答案。由于思维链的长度，这种逻辑分离是有必要的。大多数用户只会阅读最终答案 —— 阅读整个推理轨迹将非常耗时。

（来自 [15]）

并行解码 。为了提高 LLM 最终输出的准确性，我们还可以使用并行解码技术。思路很简单：不使用 LLM 生成单个输出，而是生成多个输出并聚合这些输出以形成单个最终答案。这种聚合可以通过多种方式完成；例如，使用多数投票或共识、使用加权投票、使用神经奖励模型或验证器（即也称为 Best-of-N 或拒绝采样）或其他特定领域算法找到最佳输出。

这些方法的主要好处是简单又有效。并行解码很容易扩展：我们只需生成、验证和聚合大量输出，就能得到有意义的性能提升 [9, 10, 11]。o1 式模型显然使用了并行解码技术 —— 只需查看其博客中提供的图表细节（如下所示）！但是，并行解码技术本身无法解释最近发布的推理模型所表现出的一些更复杂的推理行为。

（来自 [5]）

顺便说一句，我们还可以将拒绝采样的思想应用于训练（即训练与测试时间拒绝采样）。为此，我们只需：

采样几个输出或轨迹。
使用奖励模型（或其他评分机制）选择最佳输出。
使用这些输出进行训练。

在实践中，这种方法很常用；例如，LLaMA 模型在应用 RLHF 之前，会在其后训练过程中执行几轮训练时间拒绝采样。拒绝采样在实践中非常有效，与基于 PPO 的 RLHF 相比，它更容易实现和扩展。

自我优化 。除了并行解码之外，还可以考虑为解码采用批评或自我优化策略。首先，LLM 生成初始响应。然后，为响应提供反馈（来自 LLM 或某些外部来源），LLM 可以根据反馈修改其响应。此循环可以重复任意次数；参见下图。

（来自 [15]）

目前已有不同的优化方法，但它们可以大致分为两类：

外部式：反馈来自某些外部验证器或模块。
内部式：LLM 为其自身生成提供反馈。

优化的结果和实际效果有些复杂。有许多使用外部反馈（例如来自验证器 [16] 或代码解释器 [17]）来优化 LLM 输出的成功案例。内部优化是否有效在很大程度上取决于 LLM 提供的反馈质量。内部优化可以很好地完成简单任务 [18]。然而，这种方法很难泛化到更复杂的任务（例如数学）[19]。

开放式推理模型：DeepSeek-R1 等

到目前为止，我们已经了解了 LLM 获得推理能力的基本概念。然而，我们所了解的所有模型都是封闭的 —— 我们无法知道这些模型究竟是如何创建的。幸运的是，最近发布了几个开放式推理模型。这些模型中最引人注目的是 DeepSeek-R1 [1]。除了与 OpenAI o1 相媲美的性能外，该模型还附带了一份完整的技术报告，其中提供了足够的细节，因此完全揭开了创建强大推理模型所需过程的神秘面纱。

（来自 [1]）

DeepSeek-R1 背后的核心思想与我们迄今为止学到的知识非常吻合。该模型在可验证任务上使用强化学习进行训练，它学习利用长思维链来解决复杂的推理问题。有趣的是，强化学习训练过程是该模型强大推理能力的关键因素。该模型的多个版本 ——DeepSeek-R1-Zero 和 DeepSeek-R1—— 都已发布，具有相当的推理能力。正如我们将看到的，它是这类模型中第一个完全放弃了任何监督训练的模型，表明复杂的推理能力可自然地从使用强化学习的大规模训练中涌现。

「DeepSeek-R1-Zero 是一种通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，它展示了非凡的推理能力。通过强化学习，DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。」 - 来自 [1]

DeepSeek-v3 。DeepSeek-R1-Zero 和 DeepSeek-R1 都始于一个强大的基础模型：DeepSeek-v3 [2]。除了具有开放权重和详细的技术报告 [2] 之外，该模型还超越了之前的开放 LLM 的性能，甚至与封闭模型的质量相当。

（来自 [2]）

DeepSeek-v3 是一个 6710 亿参数的混合专家（MoE）模型。如果你不熟悉 MoE，可以参看博主的这篇长文解析，其中解释了 MoE 概念并提供了几个实例，包括 DeepSeek-v3 ： https://cameronrwolfe.substack.com/p/moe-llms

为了提高推理和训练效率，DeepSeek-v3 做出了以下设计选择：

使用多头隐注意力（MLA)。
采用优化的 MoE 结构（例如，细粒度和共享专家）。
在预训练期间使用多 token 预测目标。
放弃通常用于训练 MoE 模型的负载平衡损失。
通过采用 [2] 中提出的新型量化训练策略，在整个训练过程中将精度降低到 FP8。

出于这些原因，与其他模型相比，DeepSeek-v3 的训练非常经济：该模型在性能和效率方面都表现出色。该模型的几个先前版本已经发布，这些版本启发了 DeepSeek-v3 做出的一些设计决策，例如 DeepSeek-v2 和 DeepSeek-v2.5。

DeepSeek-R1-Zero

DeepSeek 提出的第一个推理模型是 DeepSeek-R1-Zero。该模型采用了一种有趣的训练策略，即教模型纯粹通过大规模强化学习进行推理，而无需任何 SFT。该模型会自然探索并学习利用长思维链通过强化学习解决复杂的推理问题。DeepSeek-R1-Zero 是第一个公开的研究成果，表明无需监督训练即可开发推理能力。

（来自 [22]）

使用 GRPO 的强化学习 。DeepSeek-R1-Zero 的训练从 DeepSeek-v3 [2] 基础模型开始。他们是直接通过强化学习微调这个基础模型。特别是，[1] 中的作者选择了上图中所示的组相对策略优化（GRPO）[3] 作为他们的强化学习算法。选择用于 LLM 训练的强化学习算法是一个开放且活跃的研究课题。传统上，研究人员使用 PPO 来训练 LLM，但最近有一种趋势是采用更简单的强化学习算法（例如 REINFORCE 或 GRPO）进行 LLM 训练。[1] 中给出的选择 GRPO 的主要原因是：

降低强化学习训练成本。
不再需要批评模型，该模型（通常）与策略模型（即 LLM 本身）大小相同。

定义奖励 。与大多数使用 LLM 的传统强化学习工作不同，DeepSeek-R1-Zero 不使用神经奖励模型（即基于 LLM 的奖励模型，这些模型通过偏好数据进行训练）。相反，作者使用了基于规则的奖励系统，它 i）避免奖励 hacking，ii）节省计算成本，iii）更易于实现。特别要指出，目前使用的奖励有两种：

准确度奖励：评估模型的响应是否正确。
格式奖励：强制模型以一定格式输出。

DeepSeek-R1-Zero 完全是在可自动验证的任务上进行训练的，例如数学和编程问题。对于具有确定性结果的数学问题，该模型可以以指定的格式提供答案，使我们能够通过基本的字符串匹配进行验证。同样，可以通过在预定义的测试用例上执行 LLM 在沙箱中生成的代码来验证编程问题。

从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

正文

请到「今天看啥」查看全文