专栏名称: EETOP

EETOP电子网(中国电子顶级开发网）是国内最顶级的电子行业工程师社区，涉及：嵌入式、智能硬件、半导体集成电路设计及制造等。为您分享论坛精华内容、行业最新资讯、产品及技术。网址：www.eetop.cn bbs.eetop.cn

国外AI专家深度剖析：盛赞DeepSeek R1里程碑式成就！

EETOP · 公众号 · 硬件 · 2025-02-07 11:30

正文

作者： Sebastian Raschka, PhD

本文介绍了构建推理模型的四种主要方法，或者我们如何利用推理功能增强 LLM。并详细介绍了 DeepSeek R1 背后的方法。希望本文能提供有价值的见解。

2024年，大型语言模型(LLM)领域见证了日益专业化的趋势。除了预训练和微调之外，我们还见证了从检索增强生成模型（RAG）到代码助手等专用应用的兴起。预计这一趋势将在2025年加速，对领域和应用特定的优化（即“ 专业化 ”）给予更多重视。

阶段 1-3 是开发 LLM 的常见步骤。阶段 4 专门针对特定用例使用 LLM。

推理模型的开发就是这些专业化之一。这意味着我们改进 LLM 以擅长处理最好通过中间步骤解决的复杂任务，例如谜题、高级数学和编码挑战。但是，此专业化并不能取代其他 LLM 应用程序。因为将 LLM 转换为推理模型也会引入某些弊端，我将在后面讨论。

为了让你对下文内容有一个简要的了解，在本文中，我将讨论如下内容：

解释“推理模型”的含义
讨论推理模型的优缺点
概述DeepSeek R1背后的方法论
描述构建和改进推理模型的四种主要方法
分享DeepSeek V3和R1发布后对大型语言模型前景的看法
提供在有限预算下开发推理模型的建议

希望这篇文章对你有所帮助，因为今年人工智能将继续迅速发展！

我们如何定义“推理模型”？

如果你从事 AI（或一般的机器学习）工作，你可能熟悉模糊且争论不休的定义。“推理模型”一词也不例外。最终，有人会在一篇论文中正式定义它，只是为了在下一篇文章中重新定义它，依此类推。

在本文中，我将“推理”定义为回答需要复杂、多步骤生成且包含中间步骤的问题的过程。例如，“法国的首都是什么？”这类事实型问答不涉及推理。相比之下，“如果一列火车以每小时60英里的速度行驶3小时，它会行驶多远？”这类问题则需要一些简单的推理。例如，它需要在得出答案之前识别出距离、速度和时间之间的关系。

普通的 LLM 可能只提供一个简短的答案（如左图所示），而推理模型通常包括揭示部分思维过程的中间步骤。（请注意，许多不是专门为推理任务开发的 LLM 也可以在他们的答案中提供中间推理步骤。)

大多数现代 LLM 都能够进行基本推理，并且可以回答以下问题：“如果一列火车以 60 英里/小时的速度行驶 3 小时，它能行驶多远？因此，今天，当我们提到推理模型时，我们通常指的是擅长更复杂的推理任务的 LLM，例如解决谜题、谜语和数学证明。

此外，当今大多数被标记为推理模型的 LLM 都包含“思考”或“思考”过程作为其响应的一部分。LLM 是否以及如何真正 “思考” 是一个单独的讨论。

推理模型中的中间步骤可以以两种方式出现。首先，它们可能显式包含在响应中，如上图所示。其次，一些推理 LLM（例如 OpenAI 的 o1）使用未向用户显示的中间步骤运行多次迭代。

“推理” 用于两个不同的级别：1）处理输入并通过多个中间步骤生成，以及 2）提供某种推理作为对用户的响应的一部分。

我们什么时候应该使用推理模型？

现在我们已经定义了推理模型，我们可以继续讨论更有趣的部分：如何构建和改进用于推理任务的 LLM。但是，在深入研究技术细节之前，重要的是要考虑何时真正需要推理模型。

我们什么时候需要一个推理模型？推理模型旨在擅长复杂任务，例如解决难题、高级数学问题和具有挑战性的编码任务。但是，对于摘要、翻译或基于知识的问答等更简单的任务，它们不是必需的。事实上，对所有事情都使用推理模型可能效率低下且成本高昂。例如，推理模型通常使用起来更昂贵、更冗长，有时更容易因“过度思考”而出错。这里也适用简单的规则：为任务使用正确的工具（或 LLM 类型）。

下图总结了推理模型的主要优势和局限性。

推理模型的主要优点和缺点

DeepSeek 训练管道简介

在下一节讨论构建和改进推理模型的四种主要方法之前，我想简要概述 DeepSeek R1 管道，如 DeepSeek R1 技术报告中所述。本报告既是一个有趣的案例研究，也是开发推理 LLM 的蓝图。

请注意，DeepSeek 没有发布单个 R1 推理模型，而是引入了三个不同的变体：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据技术报告中的描述，我在下图中总结了这些模型的开发过程。

DeepSeek 的开发过程 DeepSeek R1 技术报告中讨论了三种不同的推理模型。

接下来，让我们简要回顾一下上图所示的过程。下一节将介绍更多详细信息，我们将讨论构建和改进推理模型的四种主要方法。

（1） DeepSeek-R1-Zero：该模型基于 2024 年 12 月发布的 671B 预训练 DeepSeek-V3 基础模型。研究团队使用具有两种奖励的强化学习（RL）对其进行训练。这种方法被称为 “冷启动” 训练，因为它不包括监督微调（SFT）步骤，该步骤通常是通过人工反馈进行强化学习（RLHF）的一部分。

（2） DeepSeek-R1：这是 DeepSeek 的旗舰推理模型，基于 DeepSeek-R1-Zero 构建。该团队通过额外的 SFT 阶段和进一步的 RL 训练进一步完善了它，改进了“冷启动”R1-Zero 模型。

（3） DeepSeek-R1-Distill*：利用前面步骤生成的 SFT 数据，DeepSeek 团队对 Qwen 和 Llama 模型进行了微调，以增强他们的推理能力。虽然不是传统意义上的蒸馏，但这个过程涉及在更大的 DeepSeek-R1 671B 模型的输出上训练较小的模型（Llama 8B 和 70B 以及 Qwen 1.5B-30B）。

构建和改进推理模型的 4 种主要方法

在本节中，我将概述目前用于增强LLM推理能力和构建专业推理模型的关键技术，如DeepSeek-R1、OpenAI的o1和o3等。

注意：o1 和 o3 的确切工作原理在 OpenAI 之外仍然未知。然而，有传言称它们结合了推理和训练技术。

1）推理时间扩展

提高 LLM 的推理能力（或任何一般能力）的一种方法是推理时扩展。该术语可以有多种含义，但在这种情况下，它是指在推理过程中增加计算资源以提高输出质量。

一个粗略的类比是，当有更多时间思考复杂问题时，人类往往会产生更好的反应。同样，我们可以应用一些技术，鼓励 LLM 在生成答案时更多地 “思考”。（虽然，LLM 是否真的 “思考” 是一个不同的讨论）

推理时间扩展的一种简单方法是巧妙的提示工程。一个典型的例子是思维链（CoT）提示，其中输入提示中包含 “think step by step” 等短语。这鼓励模型生成中间推理步骤，而不是直接跳到最终答案，这通常（但并非总是）可以在更复杂的问题上产生更准确的结果。（请注意，将此策略用于更简单的基于知识的问题是没有意义的，例如“法国的首都是什么”，这又是一个很好的经验法则，可以找出推理模型对给定的输入查询是否有意义。

来自 2022 年大型语言模型的经典 CoT 提示的一个例子是 Zero-Shot Reasoners 论文（https://arxiv.org/abs/2205.11916）

上述 CoT 方法可以被视为推理时间扩展，因为它通过生成更多输出令牌使推理成本更高。

推理时间扩展的另一种方法是使用投票和搜索策略。一个简单的例子是多数投票，我们让 LLM 生成多个答案，我们通过多数票选择正确答案。同样，我们可以使用光束搜索和其他搜索算法来生成更好的响应。

我强烈推荐以最佳方式扩展 LLM 测试时计算可能比我在之前值得注意的 2024 年 AI 研究论文（第二部分）文章

https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2

中描述的扩展模型参数论文更有效，以了解有关这些不同策略的更多详细信息。

不同的基于搜索的方法依赖于基于流程奖励的模型来选择最佳答案。来自 LLM Test-Time Compute 论文的注释图 https://arxiv.org/abs/2408.03314

DeepSeek R1 技术报告指出，其模型不使用推理时间缩放。然而，这项技术通常是在 LLM 之上的应用层实现的，因此 DeepSeek 有可能在他们的应用中应用它。

我怀疑 OpenAI 的 o1 和 o3 模型使用推理时间缩放，这可以解释为什么与 GPT-4o 等模型相比，它们相对昂贵。除了推理时间扩展之外，o1 和 o3 可能使用类似于 DeepSeek R1 的 RL 管道进行训练。下面两节将进一步介绍强化学习。

2）纯强化学习（RL）

我个人在 DeepSeek R1 论文中的亮点之一是他们发现推理是纯强化学习（RL）的一种行为。让我们更详细地探讨一下这意味着什么。

如前所述，DeepSeek 开发了三种类型的 R1 模型。第一个 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基础模型之上，这是他们于 2024 年 12 月发布的标准预训练 LLM。与典型的 RL 管道不同，在 RL 之前应用监督微调（SFT），而 DeepSeek-R1-Zero 完全使用强化学习进行训练，没有初始 SFT 阶段，如下图所示。

DeepSeek-R1-Zero 模型的开发过程。

尽管如此，这种 RL 过程类似于常用的 RLHF 方法，该方法通常应用于偏好调整的 LLM。然而，如上所述，DeepSeek-R1-Zero 的主要区别在于它们跳过了指令优化的监督微调（SFT）阶段。这就是为什么他们将其称为“纯”RL。（虽然，LLM 上下文中的 RL 与传统 RL 有很大不同，这是另一个话题。

对于奖励，他们没有使用根据人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确性奖励和格式奖励。

准确性奖励使用 LeetCode 编译器来验证编码答案，并使用确定性系统来评估数学响应。
格式奖励依赖于 LLM 评委来确保回答遵循预期的格式，例如在标签内放置推理步骤。

令人惊讶的是，这种方法足以让 LLM 培养基本的推理技能。研究人员观察到一个“啊哈”时刻，尽管没有经过明确的训练，但模型开始生成推理轨迹作为其响应的一部分，如下图所示。

DeepSeek R1 技术报告（https://arxiv.org/abs/2501.12948）中的图表显示了 “Aha” 时刻的出现。

虽然 R1-Zero 不是一个性能最好的推理模型，但它确实通过生成中间的 “思考” 步骤来展示推理能力，如上图所示。这证实了使用纯 RL 开发推理模型是可能的， 并且 DeepSeek 团队是第一个演示（或至少发布）这种方法的人。

3）监督微调和强化学习（SFT + RL）

接下来，我们来看看 DeepSeek 的旗舰推理模型 DeepSeek-R1 的开发过程，它是构建推理模型的蓝图。该模型在 DeepSeek-R1-Zero 的基础上进行了改进，加入了额外的监督微调（SFT）和强化学习（RL）来提高其推理性能。

请注意，实际上通常在 RL 之前包含一个 SFT 阶段，如标准 RLHF 管道中所示。OpenAI 的 o1 可能是使用类似的方法开发的。

DeepSeek-R1 模型的开发过程。

如上图所示，DeepSeek 团队使用 DeepSeek-R1-Zero 生成了他们所谓的“冷启动”SFT 数据。术语“冷启动”是指这些数据是由 DeepSeek-R1-Zero 生成的，而 DeepSeek-R1-Zero 本身没有接受过任何监督微调（SFT）数据的训练。

然后，DeepSeek 使用这些冷启动 SFT 数据，通过指令微调来训练模型，然后是另一个强化学习（RL）阶段。这个 RL 阶段保留了 DeepSeek-R1-Zero 的 RL 流程中使用的相同准确性和格式奖励。但是，他们添加了一致性奖励以防止语言混合，当模型在响应中的多种语言之间切换时，就会发生这种情况。

RL 阶段之后是另一轮 SFT 数据收集。在此阶段，使用最新的模型检查点生成 600K 思维链（CoT） SFT 示例，同时使用 DeepSeek-V3 基本模型创建另外 200K 基于知识的 SFT 示例。

然后将这些 600K + 200K SFT 样品用于另一轮 RL。在这个阶段，他们再次使用基于规则的方法对数学和编码问题进行准确性奖励，而人类偏好标签则用于其他问题类型。

最终模型 DeepSeek-R1 的性能明显优于 DeepSeek-R1-Zero，这要归功于额外的 SFT 和 RL 阶段，如下表所示。

OpenAI A1 和 DeepSeek R1 模型的基准比较。来自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）的注释图。

4）纯监督微调（SFT）和蒸馏

到目前为止，我们已经介绍了构建和改进推理模型的三种关键方法：

1. 推理时扩展，一种无需训练或以其他方式修改底层模型即可提高推理能力的技术。

2. DeepSeek-R1-Zero 中的纯强化学习（RL），它表明推理可以成为一种习得的行为，而无需监督微调。

3. 监督微调（SFT）加上 RL，这导致了 DeepSeek 的旗舰推理模型 DeepSeek-R1。

那么，还剩下什么呢？模型 “distillation”。

令人惊讶的是，DeepSeek 还发布了通过他们称为蒸馏的过程训练的较小模型。但是，在 LLM 的上下文中，蒸馏不一定遵循深度学习中使用的经典知识蒸馏方法。传统上，在知识提炼中，较小的学生模型在较大的教师模型的 logits 和目标数据集上进行训练。

相反，这里的蒸馏是指在由较大的 LLM 生成的 SFT 数据集上对较小的 LLM 进行指令微调，例如 Llama 8B 和 70B 以及 Qwen 2.5 模型（0.5B 到 32B）。具体来说，这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中间检查点。事实上，用于此蒸馏过程的 SFT 数据与用于训练 DeepSeek-R1 的数据集相同，如上一节所述。

为了澄清这个过程，我在下图中突出显示了蒸馏部分。

DeepSeek-R1-Distill 模型的开发过程。

他们为什么要开发这些蒸馏模型？在我看来，有两个关键原因：

1. 模型越小，效率越高。这意味着它们的运行成本更低， 但它们也可以在低端硬件上运行 ，这使得它们对许多像我这样的研究人员和修补匠特别有趣。

2. 纯 SFT 的案例研究。这些提炼的模型是一个有趣的基准，展示了纯监督微调（SFT）可以在没有强化学习的情况下使模型走多远。

下表将这些蒸馏模型的性能与其他流行的模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 进行了比较。

蒸馏模型与非蒸馏模型的基准比较。来自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）的注释图。

正如我们所看到的，提炼后的模型明显弱于 DeepSeek-R1， 但相对于 DeepSeek-R1-Zero 来说，它们却出奇地强，尽管它小了几个数量级。 与 o1 mini 相比，这些型号的性能也很有趣（我怀疑 o1-mini 本身可能是 o1 的类似提炼版本）。

在以结论结束本节之前，还有一个有趣的比较值得一提。DeepSeek 团队测试了 DeepSeek-R1-Zero 中看到的紧急推理行为是否也可以出现在较小的模型中。为了研究这个问题，他们将 DeepSeek-R1-Zero 的相同纯 RL 方法直接应用于 Qwen-32B。

该实验的结果总结如下表所示，其中 QwQ-32B-Preview 作为基于 Qwen 团队开发的 Qwen 2.5 32B 的参考推理模型（我认为训练细节从未披露过）。这种比较提供了一些额外的见解，即纯 RL 是否可以单独在比 DeepSeek-R1-Zero 小得多的模型中诱导推理能力。

在较小的 32B 型号上比较蒸馏和 RL。来自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）的注释图。

有趣的是，结果表明，对于较小的模型，蒸馏比纯 RL 有效得多。这与以下观点一致：仅靠 RL 可能不足以在这种规模的模型中诱导强大的推理能力，而在处理小型模型时，基于高质量推理数据的 SFT 可能是一种更有效的策略。

为了完整起见，在表中查看其他比较会很有用：

1. Qwen-32B 使用 SFT + RL 进行训练，类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 联合使用时，与纯 RL 和纯 SFT 相比，可以进行多少改善。

2. DeepSeek-V3 使用纯 SFT 进行训练，类似于创建蒸馏模型的方式。这将允许直接比较以了解 RL + SFT 与纯 SFT 相比的有效性。

结论

在本文中，我们探讨了构建和改进推理模型的四种不同策略：

1.推理时扩展不需要额外的训练，但会增加推理成本，随着用户数量或查询量的增长，大规模部署的成本会更高。尽管如此，它仍然是提高已经很强大的模型的性能的不费吹灰之力。我强烈怀疑 o1 利用了推理时间扩展，这有助于解释为什么与 DeepSeek-R1 相比，它在每个令牌上的成本更高。

2. 纯 RL 对于研究目的很有趣，因为它提供了将推理作为一种紧急行为的见解。然而，在实际模型开发中，RL + SFT 是首选方法，因为它会导致更强大的推理模型。我强烈怀疑 o1 也是使用 RL + SFT 训练的。更准确地说，我相信 o1 从比 DeepSeek-R1 更弱、更小的基础模型开始，但通过 RL + SFT 和推理时间缩放进行补偿。

3. 如上所述，RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图，展示了如何做到这一点。

4. 蒸馏是一种有吸引力的方法，尤其是对于创建更小、更高效的模型。然而，限制在于蒸馏不会推动创新或产生下一代推理模型。例如，蒸馏始终依赖于现有的、更强大的模型来生成监督微调（SFT）数据。

我预计接下来会看到的一个有趣的方面是将 RL + SFT（方法 3）与推理时间缩放（方法 1）相结合。这可能是 OpenAI o1 正在做的事情，只是它可能基于比 DeepSeek-R1 更弱的基础模型，这解释了为什么 DeepSeek-R1 性能如此出色，同时在推理时保持相对便宜。

关于 DeepSeek R1 的想法

最近几周，许多人询问我对 DeepSeek-R1 模型的看法。简而言之，我认为他们是一项了不起的成就。作为一名研究工程师，我特别欣赏详细的技术报告，它提供了对他们方法的见解，我可以从中学习。

最吸引人的收获之一是推理如何从纯 RL 中成为一种行为。令人印象深刻的是，DeepSeek 在宽松的开源 MIT 许可证下开源了他们的模型，该许可证的限制甚至比 Meta 的 Llama 模型还要少。

它与 o1 相比如何？

DeepSeek-R1 比 o1 好吗？我认为它们大致处于同一水平。然而， 突出的是 DeepSeek-R1 在推理时效率更高 。这表明DeepSeek可能在训练过程中投入了更多资源，而OpenAI可能更多地依赖于o1的推理时间扩展。

也就是说，很难直接比较 o1 和 DeepSeek-R1，因为 OpenAI 没有透露太多关于 o1 的信息。例如，我们不知道：

o1 也是专家混合体（MoE）吗？
o1 有多大？
o1是否只是GPT-4o的一个略微改进版本，仅进行了少量的RL+SFT训练，并大量依赖于推理时间扩展？

在不了解这些细节的情况下，直接比较仍然是苹果与橙子的比较。

训练 DeepSeek-R1 的成本

另一个讨论点是开发 DeepSeek-R1 的成本。有些人提到了 ~600万美元的训练成本，但他们可能将 DeepSeek-V3（去年 12 月发布的基本模型）和 DeepSeek-R1 混为一谈。

600万美元的估计值基于假设的每 GPU 小时 2 美元以及 DeepSeek-V3 最终训练运行所需的 GPU 小时数，这最初是在 2024 年 12 月讨论的。

然而， DeepSeek 团队从未透露过 R1 的确切 GPU 小时数或开发成本，因此任何成本估算都只是纯粹的猜测。

无论哪种方式， 最终 DeepSeek-R1 都是开放权重推理模型的一个重要里程碑 ，它在推理时的效率使其成为 OpenAI 的 o1 的有趣替代品。

在有限的预算下开发推理模型

开发 DeepSeek-R1 级推理模型可能需要数十万到数百万美元，即使从像 DeepSeek-V3 这样的轻量级基础模型开始也是如此。对于预算有限的研究人员或工程师来说，这可能会让人感到沮丧。

国外AI专家深度剖析：盛赞DeepSeek R1里程碑式成就！

正文

我们如何定义“推理模型”？

如果你从事 AI（或一般的机器学习）工作， 你 可能熟悉模糊且争论不休的定义。“推理模型”一词也不例外。最终，有人会在一篇论文中正式定义它，只是为了在下一篇文章中重新定义它，依此类推。

我们什么时候应该使用推理模型？

现在我们已经定义了推理模型，我们可以继续讨论更有趣的部分：如何构建和改进用于推理任务的 LLM。但是，在深入研究技术细节之前，重要的是要考虑何时真正需要推理模型。

DeepSeek 训练管道简介

在下一节讨论构建和改进推理模型的四种主要方法之前，我想简要概述 DeepSeek R1 管道，如 DeepSeek R1 技术报告 中所述。本报告既是一个有趣的案例研究，也是开发推理 LLM 的蓝图。

构建和改进推理模型的 4 种主要方法

在本节中，我将概述目前用于增强LLM推理能力和构建专业推理模型的关键技术，如DeepSeek-R1、OpenAI的o1和o3等。

1） 推理时间扩展

提高 LLM 的推理能力（或任何一般能力）的一种方法是推理时扩展。该术语可以有多种含义，但在这种情况下，它是指在推理过程中增加计算资源以提高输出质量。

2） 纯强化学习 （RL）

我个人在 DeepSeek R1 论文 中的亮点之一是他们发现推理是纯强化学习 （RL） 的一种行为。让我们更详细地探讨一下这意味着什么。

3） 监督微调和强化学习 （SFT + RL）

接下来，我们来看看 DeepSeek 的旗舰推理模型 DeepSeek-R1 的开发过程，它是构建推理模型的蓝图。该模型在 DeepSeek-R1-Zero 的基础上进行了改进，加入了额外的监督微调 （SFT） 和强化学习 （RL） 来提高其推理性能。

4） 纯监督微调 （SFT） 和蒸馏