专栏名称: EETOP
EETOP电子网(中国电子顶级开发网)是国内最顶级的电子行业工程师社区,涉及:嵌入式、智能硬件、半导体集成电路设计及制造等。 为您分享论坛精华内容、行业最新资讯、产品及技术 。 网址:www.eetop.cn bbs.eetop.cn
目录
相关文章推荐
ZOL中关村在线  ·  为什么小米还在坚持做百元机? ·  13 小时前  
ZOL中关村在线  ·  铠侠EXCERIA PLUS ... ·  昨天  
哎咆科技  ·  小米15 ... ·  2 天前  
EETOP  ·  2025.01 JSSC 论文分享 ·  2 天前  
ZOL中关村在线  ·  网咖玩家终于也吃上好东西了!雷柏ESK750 ... ·  3 天前  
51好读  ›  专栏  ›  EETOP

国外AI专家深度剖析:盛赞DeepSeek R1里程碑式成就!

EETOP  · 公众号  · 硬件  · 2025-02-07 11:30

正文

作者: Sebastian Raschka, PhD

本文介绍了构建推理模型的四种主要方法,或者我们如何利用推理功能增强 LLM。并详细介绍了 DeepSeek R1 背后的方法。 希望本文能提供有价值的见解。

2024年,大型语言模型(LLM)领域见证了日益专业化的趋势。除了预训练和微调之外,我们还见证了从检索增强生成模型(RAG)到代码助手等 专用应用 的兴起。预计这一趋势将在2025年加速,对领域和应用特定的优化(即“ 专业化 ”)给予更多重视。

阶段 1-3 是开发 LLM 的常见步骤。阶段 4 专门针对特定用例使用 LLM。

推理模型的开发就是这些 专业 之一。这意味着我们改进 LLM 以擅长处理最好通过中间步骤解决的复杂任务,例如谜题、高级数学和编码挑战。但是,此专业化并不能取代其他 LLM 应用程序。因为将 LLM 转换为推理模型也会引入某些 弊端 ,我将在后面讨论。

为了让你对下文内容有一个简要的了解,在本文中,我将讨论如下内容:

  • 解释“推理模型”的含义
  • 讨论推理模型的优缺点
  • 概述DeepSeek R1背后的方法论
  • 描述构建和改进推理模型的四种主要方法
  • 分享DeepSeek V3和R1发布后对大型语言模型 前景 的看法
  • 提供在有限预算下开发推理模型的建议

希望这篇文章对你有所帮助,因为今年人工智能将继续迅速发展!

我们如何定义“推理模型”?

如果你从事 AI(或一般的机器学习)工作, 可能熟悉模糊且争论不休的定义。“推理模型”一词也不例外。最终,有人会在一篇论文中正式定义它,只是为了在下一篇文章中重新定义它,依此类推。

在本文中,我将“推理”定义为回答需要复杂、多步骤生成且包含中间步骤的问题的过程。例如,“法国的首都是什么?”这类事实型问答不涉及推理。相比之下,“如果一列火车以每小时60英里的速度行驶3小时,它会行驶多远?”这类问题则需要一些简单的推理。例如,它需要在得出答案之前识别出距离、速度和时间之间的关系。

普通的 LLM 可能只提供一个简短的答案(如左图所示),而推理模型通常包括揭示部分思维过程的中间步骤。(请注意,许多不是专门为推理任务开发的 LLM 也可以在他们的答案中提供中间推理步骤。)

大多数现代 LLM 都能够进行基本推理,并且可以回答以下问题:“如果一列火车以 60 英里/小时的速度行驶 3 小时,它能行驶多远?因此,今天,当我们提到推理模型时,我们通常指的是擅长更复杂的推理任务的 LLM,例如解决谜题、谜语和数学证明。
此外,当今大多数被标记为推理模型的 LLM 都包含“思考”或“思考”过程作为其响应的一部分。LLM 是否以及如何真正 “思考” 是一个单独的讨论。
推理模型中的中间步骤可以以两种方式出现。首先,它们可能显式包含在响应中,如上图所示。其次,一些推理 LLM(例如 OpenAI 的 o1)使用未向用户显示的中间步骤运行多次迭代。
“推理” 用于两个不同的级别:1) 处理输入并通过多个中间步骤生成,以及 2) 提供某种推理作为对用户的响应的一部 分。

我们什么时候应该使用推理模型?

现在我们已经定义了推理模型,我们可以继续讨论更有趣的部分:如何构建和改进用于推理任务的 LLM。但是,在深入研究技术细节之前,重要的是要考虑何时真正需要推理模型。

我们什么时候需要一个推理模型? 推理模型旨在擅长复杂任务,例如解决难题、高级数学问题和具有挑战性的编码任务。但是,对于摘要、翻译或基于知识的问答等更简单的任务,它们不是必需的。事实上,对所有事情都使用推理模型可能效率低下且成本高昂。例如,推理模型通常使用起来更昂贵、更冗长,有时更容易因“过度思考”而出错。这里也适用简单的规则:为任务使用正确的工具(或 LLM 类型)。
下图总结了推理模型的主要优势和局限性。

推理模型的主要优点和缺点

DeepSeek 训练管道简介

在下一节讨论构建和改进推理模型的四种主要方法之前,我想简要概述 DeepSeek R1 管道,如 DeepSeek R1 技术报告 中所述。本报告既是一个有趣的案例研究,也是开发推理 LLM 的蓝图。

请注意,DeepSeek 没有发布单个 R1 推理模型,而是引入了三个不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根据技术报告中的描述,我在下图中总结了这些模型的开发过程。

DeepSeek 的开发过程 DeepSeek R1 技术报告中讨论了三种不同的推理模型。

接下来,让我们简要回顾一下上图所示的过程。下一节将介绍更多详细信息,我们将讨论构建和改进推理模型的四种主要方法。
(1) DeepSeek-R1-Zero:该模型基于 2024 年 12 月发布的 671B 预训练 DeepSeek-V3 基础模型。研究团队使用具有两种奖励的强化学习 (RL) 对其进行训练。这种方法被称为 “冷启动” 训练,因为它不包括监督微调 (SFT) 步骤,该步骤通常是通过人工反馈进行强化学习 (RLHF) 的一部分。
(2) DeepSeek-R1:这是 DeepSeek 的旗舰推理模型,基于 DeepSeek-R1-Zero 构建。该团队通过额外的 SFT 阶段和进一步的 RL 训练进一步完善了它,改进了“冷启动”R1-Zero 模型。
(3) DeepSeek-R1-Distill*:利用前面步骤生成的 SFT 数据,DeepSeek 团队对 Qwen 和 Llama 模型进行了微调,以增强他们的推理能力。虽然不是传统意义上的蒸馏,但这个过程涉及在更大的 DeepSeek-R1 671B 模型的输出上训练较小的模型(Llama 8B 和 70B 以及 Qwen 1.5B-30B)。

构建和改进推理模型的 4 种主要方法

在本节中,我将概述目前用于增强LLM推理能力和构建专业推理模型的关键技术,如DeepSeek-R1、OpenAI的o1和o3等。

注意:o1 和 o3 的确切工作原理在 OpenAI 之外仍然未知。然而,有传言称它们结合了推理和训练技术。

1) 推理时间扩展

提高 LLM 的推理能力(或任何一般能力)的一种方法是推理时扩展。该术语可以有多种含义,但在这种情况下,它是指在推理过程中增加计算资源以提高输出质量。

一个粗略的类比是,当有更多时间思考复杂问题时,人类往往会产生更好的反应。同样,我们可以应用一些技术,鼓励 LLM 在生成答案时更多地 “思考”。(虽然,LLM 是否真的 “思考” 是一个不同的讨论)
推理时间扩展的一种简单方法是巧妙的提示工程。一个典型的例子是思维链 (CoT) 提示,其中输入提示中包含 “think step by step” 等短语。这鼓励模型生成中间推理步骤,而不是直接跳到最终答案,这通常(但并非总是)可以在更复杂的问题上产生更准确的结果。(请注意,将此策略用于更简单的基于知识的问题是没有意义的,例如“法国的首都是什么”,这又是一个很好的经验法则,可以找出推理模型对给定的输入查询是否有意义。

来自 2022 年大型语言模型的经典 CoT 提示的一个例子是 Zero-Shot Reasoners 论文 (https://arxiv.org/abs/2205.11916)

上述 CoT 方法可以被视为推理时间扩展,因为它通过生成更多输出令牌使推理成本更高。
推理时间扩展的另一种方法是使用投票和搜索策略。一个简单的例子是多数投票,我们让 LLM 生成多个答案,我们通过多数票选择正确答案。同样,我们可以使用光束搜索和其他搜索算法来生成更好的响应。
我强烈推荐以最佳方式扩展 LLM 测试时计算可能比我在之前值得注意的 2024 年 AI 研究论文(第二部分)文章
https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2
中描述的扩展模型参数论文更有效,以了解有关这些不同策略的更多详细信息。

不同的基于搜索的方法依赖于基于流程奖励的模型来选择最佳答案。来自 LLM Test-Time Compute 论文的注释图 https://arxiv.org/abs/2408.03314

DeepSeek R1 技术报告指出,其模型不使用推理时间缩放。然而,这项技术通常是在 LLM 之上的应用层实现的,因此 DeepSeek 有可能在他们的应用中应用它。
我怀疑 OpenAI 的 o1 和 o3 模型使用推理时间缩放,这可以解释为什么与 GPT-4o 等模型相比,它们相对昂贵。除了推理时间扩展之外,o1 和 o3 可能使用类似于 DeepSeek R1 的 RL 管道进行训练。下面两节将进一步介绍强化学习。

2) 纯强化学习 (RL)

我个人在 DeepSeek R1 论文 中的亮点之一是他们发现推理是纯强化学习 (RL) 的一种行为。让我们更详细地探讨一下这意味着什么。

如前所述,DeepSeek 开发了三种类型的 R1 模型。第一个 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基础模型之上,这是他们于 2024 年 12 月发布的标准预训练 LLM。与典型的 RL 管道不同,在 RL 之前应用监督微调 (SFT),而 DeepSeek-R1-Zero 完全 使用强化学习进行训练,没有初始 SFT 阶段,如下图所示。

DeepSeek-R1-Zero 模型的开发过程。

尽管如此,这种 RL 过程类似于常用的 RLHF 方法,该方法通常应用于偏好调整的 LLM。然而,如上所述,DeepSeek-R1-Zero 的主要区别在于它们跳过了指令优化的监督微调 (SFT) 阶段。这就是为什么他们将其称为“纯”RL。(虽然,LLM 上下文中的 RL 与传统 RL 有很大不同,这是另一个话题。
对于奖励,他们没有使用根据人类偏好训练的奖励模型,而是采用了两种类型的奖励:准确性奖励和格式奖励。
  • 准确性奖励使用 LeetCode 编译器来验证编码答案,并使用确定性系统来评估数学响应。
  • 格式奖励依赖于 LLM 评委来确保回答遵循预期的格式,例如在 标签内放置推理步骤。
令人惊讶的是,这种方法足以让 LLM 培养基本的推理技能。研究人员观察到一个“啊哈”时刻,尽管没有经过明确的训练,但模型开始生成推理轨迹作为其响应的一部分,如下图所示。

DeepSeek R1 技术报告 (https://arxiv.org/abs/2501.12948) 中的图表显示了 “Aha” 时刻的出现。

虽然 R1-Zero 不是一个性能最好的推理模型,但它确实通过生成中间的 “思考” 步骤来展示推理能力,如上图所示。这证实了使用纯 RL 开发推理模型是可能的, 并且 DeepSeek 团队是第一个演示(或至少发布)这种方法的人。

3) 监督微调和强化学习 (SFT + RL)

接下来,我们来看看 DeepSeek 的旗舰推理模型 DeepSeek-R1 的开发过程,它是构建推理模型的蓝图。该模型在 DeepSeek-R1-Zero 的基础上进行了改进,加入了额外的监督微调 (SFT) 和强化学习 (RL) 来提高其推理性能。

请注意,实际上通常在 RL 之前包含一个 SFT 阶段,如标准 RLHF 管道中所示。OpenAI 的 o1 可能是使用类似的方法开发的。

DeepSeek-R1 模型的开发过程。

如上图所示,DeepSeek 团队使用 DeepSeek-R1-Zero 生成了他们所谓的“冷启动”SFT 数据。术语“冷启动”是指这些数据是由 DeepSeek-R1-Zero 生成的,而 DeepSeek-R1-Zero 本身没有接受过任何监督微调 (SFT) 数据的训练。
然后,DeepSeek 使用这些冷启动 SFT 数据,通过指令微调来训练模型,然后是另一个强化学习 (RL) 阶段。这个 RL 阶段保留了 DeepSeek-R1-Zero 的 RL 流程中使用的相同准确性和格式奖励。但是,他们添加了一致性奖励以防止语言混合,当模型在响应中的多种语言之间切换时,就会发生这种情况。
RL 阶段之后是另一轮 SFT 数据收集。在此阶段,使用最新的模型检查点生成 600K 思维链 (CoT) SFT 示例,同时使用 DeepSeek-V3 基本模型创建另外 200K 基于知识的 SFT 示例。
然后将这些 600K + 200K SFT 样品用于另一轮 RL。在这个阶段,他们再次使用基于规则的方法对数学和编码问题进行准确性奖励,而人类偏好标签则用于其他问题类型。
最终模型 DeepSeek-R1 的性能明显优于 DeepSeek-R1-Zero,这要归功于额外的 SFT 和 RL 阶段,如下表所示。

OpenAI A1 和 DeepSeek R1 模型的基准比较。来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948) 的注释图。

4) 纯监督微调 (SFT) 和蒸馏

到目前为止,我们已经介绍了构建和改进推理模型的三种关键方法:

1. 推理时扩展,一种无需训练或以其他方式修改底层模型即可提高推理能力的技术。
2. DeepSeek-R1-Zero 中的纯强化学习 (RL),它表明推理可以成为一种习得的行为,而无需监督微调。
3. 监督微调 (SFT) 加上 RL,这导致了 DeepSeek 的旗舰推理模型 DeepSeek-R1。
那么,还剩下什么呢?模型 “distillation”。
令人惊讶的是,DeepSeek 还发布了通过他们称为蒸馏的过程训练的较小模型。但是,在 LLM 的上下文中,蒸馏不一定遵循深度学习中使用的经典知识蒸馏方法。传统上,在知识提炼中,较小的学生模型在较大的教师模型的 logits 和目标数据集上进行训练。
相反,这里的蒸馏是指在由较大的 LLM 生成的 SFT 数据集上对较小的 LLM 进行指令微调,例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B)。具体来说,这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中间检查点。事实上,用于此蒸馏过程的 SFT 数据与用于训练 DeepSeek-R1 的数据集相同,如上一节所述。
为了澄清这个过程,我在下图中突出显示了蒸馏部分。

DeepSeek-R1-Distill 模型的开发过程。

他们为什么要开发这些蒸馏模型?在我看来,有两个关键原因:
1. 模型越小,效率越高。这意味着它们的运行成本更低, 但它们也可以在低端硬件上运行 ,这使得它们对许多像我这样的研究人员和修补匠特别有趣。
2. 纯 SFT 的案例研究。这些提炼的模型是一个有趣的基准,展示了纯监督微调 (SFT) 可以在没有强化学习的情况下使模型走多远。
下表将这些蒸馏模型的性能与其他流行的模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 进行了比较。

蒸馏模型与非蒸馏模型的基准比较。来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948) 的注释图。

正如我们所看到的,提炼后的模型明显弱于 DeepSeek-R1, 但相对于 DeepSeek-R1-Zero 来说,它们却出奇地强,尽管它小了几个数量级。 与 o1 mini 相比,这些型号的性能也很有趣(我怀疑 o1-mini 本身可能是 o1 的类似提炼版本)。
在以结论结束本节之前,还有一个有趣的比较值得一提。DeepSeek 团队测试了 DeepSeek-R1-Zero 中看到的紧急推理行为是否也可以出现在较小的模型中。为了研究这个问题,他们将 DeepSeek-R1-Zero 的相同纯 RL 方法直接应用于 Qwen-32B。
该实验的结果总结如下表所示,其中 QwQ-32B-Preview 作为基于 Qwen 团队开发的 Qwen 2.5 32B 的参考推理模型(我认为训练细节从未披露过)。这种比较提供了一些额外的见解,即纯 RL 是否可以单独在比 DeepSeek-R1-Zero 小得多的模型中诱导推理能力。

在较小的 32B 型号上比较蒸馏和 RL。来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948) 的注释图。

有趣的是,结果表明,对于较小的模型,蒸馏比纯 RL 有效得多。这与以下观点一致:仅靠 RL 可能不足以在这种规模的模型中诱导强大的推理能力,而在处理小型模型时,基于高质量推理数据的 SFT 可能是一种更有效的策略。
为了完整起见,在表中查看其他比较会很有用:
1. Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 联合使用时,与纯 RL 和纯 SFT 相比,可以进行多少改善。
2. DeepSeek-V3 使用纯 SFT 进行训练,类似于创建蒸馏模型的方式。这将允许直接比较以了解 RL + SFT 与纯 SFT 相比的有效性。

结论

在本文中,我们探讨了构建和改进推理模型的四种不同策略:

1.推理时扩展不需要额外的训练,但会增加推理成本,随着用户数量或查询量的增长,大规模部署的成本会更高。尽管如此,它仍然是提高已经很强大的模型的性能的不费吹灰之力。我强烈怀疑 o1 利用了推理时间扩展,这有助于解释为什么与 DeepSeek-R1 相比,它在每个令牌上的成本更高。
2. 纯 RL 对于研究目的很有趣,因为它提供了将推理作为一种紧急行为的见解。然而,在实际模型开发中,RL + SFT 是首选方法,因为它会导致更强大的推理模型。我强烈怀疑 o1 也是使用 RL + SFT 训练的。更准确地说,我相信 o1 从比 DeepSeek-R1 更弱、更小的基础模型开始,但通过 RL + SFT 和推理时间缩放进行补偿。
3. 如上所述,RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图,展示了如何做到这一点。
4. 蒸馏是一种有吸引力的方法,尤其是对于创建更小、更高效的模型。然而,限制在于蒸馏不会推动创新或产生下一代推理模型。例如,蒸馏始终依赖于现有的、更强大的模型来生成监督微调 (SFT) 数据。
我预计接下来会看到的一个有趣的方面是将 RL + SFT(方法 3)与推理时间缩放(方法 1)相结合。这可能是 OpenAI o1 正在做的事情,只是它可能基于比 DeepSeek-R1 更弱的基础模型,这解释了为什么 DeepSeek-R1 性能如此出色,同时在推理时保持相对便宜。

关于 DeepSeek R1 的想法

最近几周,许多人询问我对 DeepSeek-R1 模型的看法。简而言之, 我认为他们是一项了不起的成就。作为一名研究工程师,我特别欣赏详细的技术报告,它提供了对他们方法的见解,我可以从中学习。

最吸引人的收获之一是推理如何从纯 RL 中成为一种行为。令人印象深刻的是,DeepSeek 在宽松的开源 MIT 许可证下开源了他们的模型,该许可证的限制甚至比 Meta 的 Llama 模型还要少。
它与 o1 相比如何?
DeepSeek-R1 比 o1 好吗?我认为它们大致处于同一水平。然而, 突出的是 DeepSeek-R1 在推理时效率更高 这表明DeepSeek可能在训练过程中投入了更多资源,而OpenAI可能更多地依赖于o1的推理时间扩展。
也就是说,很难直接比较 o1 和 DeepSeek-R1,因为 OpenAI 没有透露太多关于 o1 的信息。例如,我们不知道:
  • o1 也是专家混合体 (MoE) 吗?
  • o1 有多大?
  • o1是否只是GPT-4o的一个略微改进版本,仅进行了少量的RL+SFT训练,并大量依赖于推理时间扩展?
在不了解这些细节的情况下,直接比较仍然是苹果与橙子的比较。
训练 DeepSeek-R1 的成本
另一个讨论点是开发 DeepSeek-R1 的成本。有些人提到了 ~600万美元的训练成本,但他们可能将 DeepSeek-V3(去年 12 月发布的基本模型)和 DeepSeek-R1 混为一谈。
600万美元的估计值基于假设的每 GPU 小时 2 美元以及 DeepSeek-V3 最终训练运行所需的 GPU 小时数,这最初是在 2024 年 12 月讨论的。
然而, DeepSeek 团队从未透露过 R1 的确切 GPU 小时数或开发成本,因此任何成本估算都只是纯粹的猜测。
无论哪种方式, 最终 DeepSeek-R1 都是开放权重推理模型的一个重要里程碑 ,它在推理时的效率使其成为 OpenAI 的 o1 的有趣替代品。

在有限的预算下开发推理模型

开发 DeepSeek-R1 级推理模型可能需要数十万到数百万美元,即使从像 DeepSeek-V3 这样的轻量级基础模型开始也是如此。对于预算有限的研究人员或工程师来说,这可能会让人感到沮丧。







请到「今天看啥」查看全文