专栏名称: Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

Lex Fridman 五小时聊 DeepSeek：一文看懂 DeepSeek 的创新与2025 AI 趋势

Founder Park · 公众号 · · 2025-02-10 22:49

正文

DeepSeek 火了之后，知名科技主播Lex Fridman，找了两位嘉宾，从 DeepSeek 及其开源模型 V3 和 R1 谈到了 AI 发展的地缘政治竞争，特别是中美在 AI 芯⽚与技术出⼝管制上的博弈。

介绍⼀下对谈的两名嘉宾：Dylan Patel 和 Nathan Lambert 。Dylan 运营着 SemiAnalysis，⼀家专注于半导体、GPU、CPU 和通⽤ AI 硬件的知名研究分析公司。Nathan Lambert 是艾伦⼈⼯智能研究所的研究科学家，也是著名 AI 博客 Interconnects 的博主。简单点说，两位技术专家都足够中立，所以观点颇为值得一看。

5 个小时的对谈，基于「赛博禅心」的翻译版本，我们精选出了5 万字，基本把 DeepSeek 的创新、目前 AI 的算力问题、AI 训练和蒸馏、以及产品落地等都聊透了。建议收藏后仔细阅读。

点击关注，每天更新深度 AI 行业洞察

01 DeepSeek-R1 是目前最「开源」

的开源模型之一

Lex Fridman：Nathan，你能否先介绍一下 DeepSeek-V3 和 DeepSeek-R1，它们的工作原理和训练方式？我们先从宏观层面入手，再深入细节。

Nathan： DeepSeek-V3 是中国 DeepSeek 公司新推出的混合专家 Transformer 语言模型。他们在模型中加入了一些新技术细节，我们稍后会详谈。总的来说，V3 是一个开源权重模型，属于指令模型，类似于 ChatGPT。他们还发布了基础模型，即应用后训练技术之前的版本。目前指令模型是主流，广泛应用于各种场景。V3 模型大约在 12 ⽉ 26 日那周发布的。几周后的 1 ⽉ 20 日，DeepSeek 又发布了 DeepSeek-R1，这是一款推理模型，引发了更广泛的讨论。

这款推理模型与 DeepSeek-V3 在训练步骤上有很多重叠之处。V3 既有基础模型，又有聊天模型，还有推理模型，这确实容易让人困惑。我认为当前 AI 行业面临的挑战之一就是如何有效沟通。OpenAI 也在吐槽自己的模型命名体系，例如 GPT-4o 、OpenAI o1 等，模型种类繁多。因此，我们将逐一解析这些模型，理清它们之间的区别。训练方面有很多技术细节，我们会由浅入深，逐步剖析。

Lex Fridman：我们可以聊很多，不如先从开源权重开始。模型开源权重是什么意思？广义上，开源的不同形式有哪些？

Nathan ：AI 领域关于开源的讨论由来已久。自 2022 年底 ChatGPT 问世以来，开源问题变得愈发重要和受关注。 「开源权重」是指语言模型的权重数据在互联网上公开，供人下载。 这些权重数据可能附带不同的许可证，规定了你使用模型的条款。部分许可证源于历史悠久的开源软件领域，还有一些是公司专门设计的，例如 Llama 、DeepSeek 、Qwen 、Mistral 等流行的开源权重模型，都采用了各自定制的许可证。情况比较复杂，因为即使是相似的模型，也可能采用不同的许可条款。行业内的一个主要争议点是，什么才算真正的开源权重模型？以及，为什么要用「开源权重」这个术语？它听起来和开源很像，但又有所不同。

关于开源 AI 的定义和本质，目前仍有争论。开源软件在修改自由、自主使用自由和使用限制等方面有着悠久的历史。这些概念在 AI 领域的具体内涵仍在不断演变和界定。我所在的艾伦人工智能研究所是一家非营利机构，我们的目标是推动 AI 的开放普及，并倡导我们认为真正意义上的开源。尽管社区内部尚未完全达成共识，但我们认为， 真正的开源应该包括发布训练数据、公开训练代码，以及开源模型权重，就像 DeepSeek 这样。 后续我们会深入探讨模型细节，并反复强调，数据处理、数据过滤和数据质量是决定模型优劣的首要因素。

此外，训练代码的质量直接决定了训练时间和实验迭代效率。缺乏完全开源的模型（包括数据和代码），模型的复现将变得异常困难，成本也会高得多。稍后我们会分析 DeepSeek-V3 的成本构成，重点关注 GPU 使用时长和租用成本。但如果没有数据，模型的复现成本将远超想象。代码开源与否，也面临着同样的问题。

Lex Fridman：补充一点，DeepSeek 的模型可能是目前最开放的前沿模型之一。

Nathan ：是的。

Lex Fridman： 在完全开源的 spectrum（光谱）上，正如你所说，完全开源包括开源代码、开源数据和开源权重。DeepSeek 的模型并非开源代码，数据可能也非开源，但权重是开源的，并且许可证也相对宽松，比如 MIT 许可证。当然，不同模型之间或许存在细微差别，但总体而言，其许可条款是倾向于自由开放的。就开源运动而言，DeepSeek 无疑是积极力量。

Nathan ：的确如此。DeepSeek 在推动 AI 知识普及方面做出了杰出贡献。他们的论文详尽地阐述了技术细节，为全球其他团队改进自身训练技术提供了切实可行的参考。我们稍后会深入探讨许可证问题，DeepSeek-R1 模型采用了非常宽松的 MIT 许可证。这意味着商业应用不受任何限制，用例方面也几乎没有约束。你可以利用模型的输出生成合成数据，这些都是非常棒的特性。

我认为，与 DeepSeek-R1 最接近的开源模型是 Llama，它也开源了权重，并附带技术报告。Llama 的技术报告质量也很高，Llama 3 的论文是去年下载量最高的 PDF 之一。但在某些方面，Llama 的可操作性略逊一筹，它在训练细节方面的披露较少，图表等可视化信息也相对较少。此外，Llama 3 的许可证也比 MIT 许可证更为严格。DeepSeek 的定制许可证和 Llama 许可证之间有很多差异，我们完全可以就许可证展开深入讨论。不过，在深入细节之前，我们需要先明确是否要深入探讨许可证这个话题。

Lex Fridman ：需要指出的是，DeepSeek 的开源举动，无疑对 Llama 以及包括 OpenAI 在内的所有其他机构都构成了压力，迫使他们朝着更加开放的方向发展。你之前提到过开源的另一个层面，就是信息的公开程度。DeepSeek 在详细信息披露方面做得非常出色，技术报告质量很高，内容详实，而非泛泛而谈。

Nathan ：特别是在 DeepSeek-V3 的预训练论文中，他们清晰地阐述了其技术栈多个层面的创新。例如，为了实现高效训练，他们甚至在 NVIDIA 芯片的 CUDA 层或更底层进行了优化。我自己没有在 DeepSeek 工作过，但据我所知，全球范围内能够胜任这项工作的人屈指可数，DeepSeek 就拥有这样的人才。这类顶尖人才不仅在 DeepSeek，也在美国的前沿实验室工作，但数量确实不多。

Lex Fridman：关于开源权重，我们应该如何理解权重在窃取数据方面的潜在风险？

Nathan ：你可以从 Hugging Face 或其他平台下载模型权重，它们本质上是非常庞大的数字矩阵。你可以将这些权重下载到一台完全离线的电脑上，在没有互联网连接的环境下运行模型，从而完全掌控你的数据。这与当前许多语言模型的实际使用方式截然不同。现在，我们使用语言模型，通常是通过 API 接口，将提示发送到由特定公司运营的 GPU 上进行处理。这些公司在数据存储、是否使用用户数据进行模型训练、数据存储地点、是否加密等方面，都有不同的政策和措施。而开源权重模型则不同，你的数据命运完全掌握在自己手中，这与开源精神的核心理念高度契合。

Lex Fridman： 所以，真正窃取数据的不是模型本身，而是模型的托管者。如果你使用 DeepSeek 的应用，数据可能会被中国方面获取；如果你使用 Perplexity 或 OpenAI 的服务，那么你的数据则分别由美国公司 Perplexity 或 OpenAI 掌握。一些公司位于美国，另一些位于中国，但模型本身并不具备窃取数据的功能，真正的数据控制权掌握在托管者手中。

02 DeepSeek-V3

和 DeepSeek-R1 的区别

Lex Fridman：回到我们之前讨论的基础知识。DeepSeek-V3 和 DeepSeek-R1 之间到底有什么区别？我们能否尝试理清这些概念，避免混淆？

Nathan ：当然。首先，我完全理解大家对这两个模型名称感到困惑。我认为，理解它们之间差异的最佳方式是了解语言模型的训练过程。训练语言模型通常分为两个阶段：预训练和后训练。

预训练阶段，模型通过预测互联网上的海量文本数据中的下一个 token，学习语言的通用规律。DeepSeek 的这两个模型，都采用了相同的大规模互联网文本预训练方式，得到了所谓的 DeepSeek-V3 base 模型。这是一个基础模型，主要功能是续写文本，但它可能不如 ChatGPT 那样易于使用。为了让模型具备更符合人类期望的行为，DeepSeek 在 V3 base 模型的基础上，进行了两种不同的后训练。其中一种后训练方式，是近年来 AI 领域比较常见的，旨在构建指令模型、聊天模型或所谓的「对齐模型」、「助手模型」。这类后训练方法包括指令调优、基于人类反馈的强化学习等等。

DeepSeek 通过这种「标准」的后训练流程，得到了 DeepSeek-V3 模型。V3 是 DeepSeek 发布的首个模型，其性能非常出色，可以与 GPT-4 、Llama 405B 等模型相媲美。在 V3 模型发布前后，DeepSeek 团队可能也在进行另一种不同的后训练流程。他们基于同一个预训练模型 V3 base，采用了一种全新的推理训练方法，从而得到了 DeepSeek-R1 模型。在我们的对话中，R 代表 Reasoning（推理）。R1 的命名方式也与 OpenAI 的 o1 推理模型类似。R1 的训练过程与 V3 有所不同，它采用了一系列更新颖的技术，更符合 AI 社区的研究前沿，因此也代表着一个快速发展和演进的领域。稍后我们将更详细地分析 R1 的训练过程。

Lex Fridman：或许我们应该先明确一下预训练和后训练这两个术语的含义。它们是 AI 领域常用的概括性术语。什么是预训练？什么是后训练？后训练又包含哪些不同的类型？

Nathan ：预训练，正如我之前强调的，其核心是自回归预测，即预测文档序列中的下一个 token。预训练通常需要处理数万亿级别的 token，数据主要来源于网络抓取。DeepSeek 在早期的论文中提到，他们的训练数据来自 Common Crawl 等公开数据集，并经过数学知识的提炼。Common Crawl 是一个公开可访问的互联网爬虫项目，任何人都可以从其网站下载数据。当然，大型科技公司最终会转向使用自建爬虫，DeepSeek 以及大多数前沿实验室可能也是如此。但 Common Crawl 之类的数据集，为研究人员提供了一个很好的起点。预训练的目标是让模型学习预测文本序列中的下一个词。

预训练可以扩展到非常大的规模，并且效率很高。AI 训练中经常会提到一些指标，例如浮点运算次数（FLOPS）和 GPU 使用时长。预训练通常会使用单一的损失函数，并投入大量的计算资源。研究人员构建高效的系统，最终得到的就是基础模型。预训练阶段的复杂性主要体现在训练过程的演进方式和不同损失函数的选择上。许多预训练技术都源于自然语言处理领域的文献。指令微调是其中最古老，但至今仍被广泛采用的技术，也被称为监督微调，缩写为 IFT 或 SFT。

IFT 和 SFT 这两个术语经常被交替使用，我个人也可能会混用。

指令微调的核心思想是，在模型中加入特定的格式，使其能够理解并响应指令。例如，当模型接收到「请解释罗马帝国的历史」这类问题，或者类似 Reddit 、StackOverflow 上的提问时，模型能够以信息量丰富且易于理解的方式给出答案。指令微调阶段的关键在于训练模型理解和遵循指令的格式。除了指令微调之外，目前还使用了另外两类损失函数。一类是偏好微调。

偏好微调是人类反馈强化学习（RLHF）的广义术语。RLHF 被认为是 ChatGPT 取得突破的关键技术。它的核心在于，使模型的回复不仅格式良好（如 Reddit 问答），而且更符合人类的阅读偏好。

偏好微调通过收集人类的成对偏好数据来实现。最初的数据标注工作由人工完成，现在也开始引入 AI 进行数据标注，其中存在一些权衡。偏好微调使用对比损失函数，让模型学习区分好答案和坏答案，并学习人类偏好的模式。具体的实现方法有很多种，例如奖励模型、直接对齐算法等等。这些方法都旨在微调模型，使其输出更符合人类的偏好。

最后一个阶段，也是最新的技术，与 R1 等推理模型密切相关，OpenAI 将其称为强化微调 API。这个思路是将强化学习技术应用于语言模型微调。强化学习是 AI 的一个重要分支，有着深厚的理论基础。

简单来说，强化学习是一种试错学习方法，或者说是 AI 的一个子领域，专注于在可能存在噪声的环境中进行序列决策。我们可以从很多角度深入探讨强化学习，但就语言模型微调而言，其核心思想是让模型生成答案，然后检查答案是否正确。对于数学题或代码题这类问题，我们可以精确地判断答案是否正确，例如数学题有标准答案，代码题可以通过单元测试来验证。我们所做的，就是检查语言模型的工作成果，并让模型多次尝试回答同一问题，以判断其是否正确。通过不断地迭代训练，模型在可验证的领域，例如数学和编程方面，可以取得显著的性能提升。这项技术非常有效，在学术界也比较新颖。美国的一些前沿实验室已经使用了多年，但并未公开所有细节。将强化学习应用于语言模型，尤其是在 DeepSeek 时刻之后，正成为一个热门趋势。

Lex Fridman ：再次强调，在整个技术栈的各个层面，都有激动人心的新进展。但今年后训练领域可能会迎来更多有趣的突破。

03 R1 的 Aha Moment

Lex Fridman：我差点忘了讨论 DeepSeek-V3 和 R1 在用户体验上的差异。抛开技术细节，对于不了解 AI 的普通用户而言，当他们与 V3 和 R1 模型互动时，实际体验有何不同？它们各自擅长什么？

Nathan ：我们先从 DeepSeek-V3 开始，它与用户已经体验过的模型比较相似。当你向 V3 提问时，它会快速生成 token，这些 token 会组合成易于理解的人类语言答案，通常会采用 Markdown 列表的形式，并带有格式，突出显示答案的核心要点。V3 可以生成数十甚至数百个 token。Token 通常是一个词，对于常用词或长词的一部分，它可能只是一个子词。V3 的回复看起来就像 Reddit 或 StackOverflow 上的高质量答案。我认为，这些模型在各个领域都变得非常擅长生成这类回复，即使是一些非常专业的、接近知识前沿的领域，它们也能给出相当不错的回答。即使对于我所研究的前沿 AI 课题，这些模型也能够作为学习辅助工具，并且模型的能力也在不断更新迭代。

DeepSeek-R1，也就是我们所说的推理模型，则有所不同。当你观察 R1 生成的 token 时，你会发现首先出现的是大量的思维链过程。模型在生成答案之前，会先解释问题，分解问题。例如，「他们问了我这个问题，我需要分解一下，我需要做以下几个步骤。」所有这些推理过程都会以 token 的形式快速生成，因为 API 速度很快，你会看到屏幕上迅速涌现大量的词语，持续不断地输出，这就是整个推理过程。

在完成推理过程后，R1 模型的语气会发生转变，开始给出最终答案，答案的形式与 V3 等模型类似。DeepSeek R1 之所以受到 AI 领域内外的广泛关注，部分原因在于它允许用户看到模型分解问题的过程。在技术层面，DeepSeek 对 R1 模型进行了专门训练，使其能够执行这种两阶段过程：首先进行推理，然后生成答案。在推理阶段结束后，模型会生成一个特殊 token（通常对用户隐藏），表明「好的，我开始回答了」。如果你使用 OpenAI 的类似模型，OpenAI 的用户界面会尝试以更友好的方式呈现这个过程，例如将推理过程分解为「分解问题」、「进行 X 计算」、「清理结果」等步骤，并以点击切换的方式展示，最终才给出答案。

Lex Fridman ：或许我们可以举一个 DeepSeek-R1 推理的例子。

Nathan ：这是 DeepSeek 聊天应用的截图。顶部显示「思考了 157 秒」，旁边有一个下拉箭头。如果我们实际运行这个应用，点击下拉箭头就可以展开查看模型的推理过程。

Lex Fridman ：在这个例子中，我提出的问题带有一些哲学性和「瘾君子」倾向，我向 DeepSeek- R1 询问一个关于人类的真正新颖的见解。模型揭示了其推理过程，其核心在于「新颖性」。模型不断地自我追问，「这真的是新颖的吗？」它实际上是在挑战自己，力求更具新意、更反直觉、更不落俗套。部分推理过程如下（这只是部分快照）：「或者，人类拥有一种独特的元情绪，他们会对自己的情绪产生情绪，例如，对生气感到内疚。这种递归的情感分层创造了其他动物所不具备的复杂动机驱动力。其洞见在于，人类的情绪是嵌套的。」模型深入分析了人类如何体验情绪，以及元情绪的概念。

Nathan ：推理过程会持续很多页，信息量很大，可能难以逐字阅读，但快速浏览一下还是很有价值的。

Lex Fridman ：这就像是詹姆斯·乔伊斯式的意识流。

模型会不断追问，「等等，用户想要的是前所未有的见解，让我再深入挖掘一下。」然后模型会思考「人类同时持有矛盾信念的能力」，并指出「认知失调是已知的，但或许它的作用在于促进灵活适应」。这种推理过程确实激发了公众的想象力，让人惊呼「我的天啊，这不仅仅是智能，这简直就是意识的萌芽！」因为它在思考，在自我反思，在进行审慎的思考。经过 157 秒的「思考」，模型的最终答案是：「人类本能地将自私的欲望转化为合作系统，通过集体虚构抽象规则，如金钱、法律、权利，并假装它们是真实的。这些共同的幻觉就像『游戏』，在这些游戏中，竞争被巧妙地转移，以造福整个群体，将冲突转化为社会发展的动力。」这个回答相当深刻。

Nathan ：这可能有点跑题了，但很多人都认为，推理模型有时可以生成更富有文采的文本。至少在这个例子中，我认为，取决于你对语言模型的接受程度，你会发现语言模型或多或少都很有趣。

Lex Fridman ：我们稍后会讨论各种基准测试，但有时，仅仅是感觉就足够了。这种感觉本身就足以引发「哇」的惊叹。好吧，这或许是一个值得深入探讨的话题。

04 DeepSeek 是如何实现低成本训练的？

Lex Fridman：DeepSeek 是如何在训练和推理方面实现如此低成本的？先来谈谈训练成本吧。

Dylan ：他们主要采用了两项关键技术来提升效率，此外还有一些实施细节，这些细节也对效率提升有所贡献。这两项主要技术分别是：一是采用了混合专家模型（MoE）；二是他们发明了一种名为 MLA（潜在注意力）的新技术。这两项技术都非常重要。

混合专家模型在学术界已经存在多年。OpenAI 的 GPT-4 是第一个将混合专家模型产品化的。这意味着，我们常见的模型，例如 Llama，它是一个稠密模型，也就是说，在生成每个 token 时，模型的每一个参数或神经元都会被激活。

而混合专家模型则不同。人类大脑的工作方式是，视觉皮层在处理视觉任务时处于活跃状态，杏仁核在感到恐惧时活跃。大脑的不同区域负责不同的功能。专家混合模型在一定程度上模拟了这种机制。虽然它远不如人脑复杂，但模型中不同的部分会被激活。模型中预设了一组专家，每次只激活其中的一部分。这大大降低了训练和推理的成本。因为，如果你将模型的参数量视为模型用于压缩训练知识的总嵌入空间，那么，一方面，模型可以将数据嵌入到更大的参数空间中，另一方面，在训练或推理时，模型只需要激活一部分参数，模型会自动学习针对不同任务路由到哪个专家。

因此，在以下方面，这是一个巨大的创新：我可以持续扩展模型的总嵌入空间，容纳更多的知识。DeepSeek 的模型拥有超过 6000 亿个参数，相比之下，Llama 405B 有 4050 亿参数，Llama 70B 有 700 亿参数。从参数规模上看，DeepSeek 模型拥有更大的信息压缩空间，可以容纳更多来自互联网的世界知识。但与此同时，模型每次只激活约 370 亿个参数。也就是说，在训练或推理过程中，只需要计算 370 亿个参数。相比之下，Llama 模型每次推理都需要激活 700 亿或 4050 亿个参数。因此，采用混合专家架构可以显著降低训练和推理的计算成本。

Nathan：我们是否应该深入探讨一下混合专家模型在 Transformer 架构中的应用，以及它的具体作用？

Lex Fridman ：当然，聊聊 Transformer 架构吧。

Nathan ：Transformer 架构是一个被广泛讨论的话题，我们今天不会面面俱到。简单来说，Transformer 是由重复堆叠的注意力机制模块和传统的前馈神经网络模块构建而成。你可以将前馈神经网络理解为普通的多层感知器。Transformer 模型就是由这两种模块交替堆叠而成。

当然，Transformer 的细节远不止于此。专家混合模型主要应用于 Transformer 架构中的前馈神经网络模块。前馈神经网络模块占据了 Transformer 模型的大部分权重参数。因此，通过在前馈网络中引入专家混合模型，可以显著提高参数利用率，降低训练和推理的计算成本，因为它有效地减少了需要激活的参数数量。

Lex Fridman ：我们还需要补充一点，Transformer 本身就是一个巨型的神经网络。

Nathan ：是的。

Lex Fridman ：在过去的 15 年里，深度学习领域发生了一场革命。神经网络的规模变得越来越庞大。在某个阶段，人们发现了缩放定律（Scaling Law），即模型性能会随着模型规模的扩大而提升。

人们逐渐认识到，在多个维度上，更大的模型通常性能更优。「更大」可以有很多不同的含义，但核心思想是，更大的神经网络通常性能更好。我们今天讨论的所有模型，本质上都是神经网络，我们正在探讨的是如何设计这些神经网络的架构，从而提高训练和推理的效率。

Nathan ：是的。每种模型架构都有其特定的缩放定律，也就是说，模型性能随着计算资源投入的增加而提升。即使不考虑推理方面的优势（实际上也很显著），专家混合模型在训练效率方面也表现出色。如果实施得当，采用专家混合模型架构可以显著提高 GPU 的利用效率。在评估指标相似的情况下，使用专家混合模型可以将计算量减少约 30%。当然，实际的效率提升幅度会因具体的实施细节而有所不同。重要的是，要认识到，这类技术创新能够带来巨大的收益。我预计，未来大多数提供 AI 模型的公司都会转向专家混合模型。从历史角度来看，并非所有人都采用专家混合模型，主要是因为实施起来比较复杂，尤其是在训练大型模型时。

DeepSeek 之所以备受赞誉，其中一个重要原因在于他们在专家混合模型方面做得非常出色。 DeepSeek MoE（专家混合模型）架构并非横空出世，而是经过多篇论文的迭代演进。他们训练基础设施的这一部分并非 DeepSeek 独有。Dylan 刚才提到的多头潜在注意力也是如此。MLA 主要用于减少推理过程中的内存占用，训练过程也是如此，它利用了一些巧妙的低秩近似数学技巧。深入研究潜在注意力的细节，你会发现 DeepSeek 在模型实现方面下了很大功夫。

因为，除了注意力机制，语言模型还有其他组件，例如用于扩展上下文长度的嵌入。DeepSeek 采用的是旋转位置编码（RoPE）。如果将 RoPE 与传统的 MoE 结合使用，需要进行一系列操作，例如，将两个注意力矩阵进行复数旋转，这涉及到矩阵乘法。DeepSeek 的 MLA 架构有所不同，为了兼容 MLA，他们需要进行一些巧妙的设计，这无疑增加了实现的复杂性。他们成功地将这些技术整合在一起，这表明 DeepSeek 在高效语言模型训练方面走在了前沿。这些技术可能也正是 OpenAI 等封闭实验室正在使用的。我们无法确知他们是否采用了完全相同的技术，但 DeepSeek 慷慨地与世界分享了他们的创新成果，这非常值得称赞。

Lex Fridman：其中一些技术需要底层工程的专业知识，涉及到大量的技巧和复杂的细节。据我所知，DeepSeek 甚至深入到了 CUDA 层以下，对 GPU 进行了底层的编程优化。

Dylan ：实际上，英伟达构建了一个名为 NCCL 的库，用于在模型训练过程中实现 GPU 之间的通信。训练大型模型时，模型通常有数百层，每一层之间都需要进行大量的通信。

Nathan：NCCL 的全称是什么？

Dylan ：NVIDIA Collective Communications Library（英伟达集合通信库）。

在模型的每一层，例如多层感知机或前馈网络与注意力机制之间，都需要进行大量的 allreduce 和 allgather 操作，以确保模型参数在 GPU 之间同步。这就是 GPU 集群之间的通信，无论是在训练还是推理阶段。Nvidia 提供了一个标准库 NCCL 来处理这些通信。这也是为什么使用其他厂商的硬件进行模型训练非常困难的原因之一，因为目前还没有其他厂商构建出像 NCCL 这样完善的标准通信库。Nvidia 在较高层面上提供了解决方案。

DeepSeek 之所以需要进行底层优化，是因为他们所能获得的 GPU 资源受到一些限制。 他们使用的 GPU 可能在互连带宽方面存在一定的瓶颈，这可能是由于美国对华出口管制政策造成的。为了克服这些限制，DeepSeek 必须想方设法提高效率。其中一个方法就是不直接调用 NVIDIA 的 NCCL 库，而是自行调度 GPU 之间的通信。一些实验室也采用了类似的策略。

Meta 在 Llama 3 的论文中也提到，他们开发了自己的 NCCL 定制版本，但没有公开具体的实现细节。DeepSeek 可能也做了类似的事情，甚至可能做得更好，因为「需求是创新之母」，他们不得不这样做。OpenAI 、Anthropic 等公司也有专门的人员从事这类底层优化工作。但 DeepSeek 的独特之处在于，他们不仅公开了这些技术细节，而且可能做得更出色，因为他们在 GPU 资源方面受到了一定的限制。

他们通过调度特定的 SM（流式多处理器）来管理 GPU 通信。你可以将 SM 理解为 GPU 的核心。一块 GPU 芯片上通常有数百个 SM 核心。DeepSeek 会精细地控制哪些 SM 核心负责模型计算，哪些核心负责 allreduce 或 allgather 通信，并在它们之间进行动态切换。这需要极其低级的编程技巧。

Nathan ：这通常是 NCCL 自动处理的，或者其他 Nvidia 库自动处理的。

Dylan ：没错。从技术角度讲，他们使用的是 PTX，你可以把它看作是一种汇编语言。它并不完全等同于汇编语言或指令集，但它仍然是 CUDA 的一部分。在编程层面，你可以选择使用 Python 或 PyTorch 等高级语言，调用 Nvidia 库；也可以深入 C 语言层面进行更低级别的编码；甚至可以深入到汇编或 ISO 级别进行极致优化。大型实验室在某些情况下会进行最底层的优化，但大多数公司不会这样做，因为这会耗费大量的时间，而且效率提升并不划算。

但是，DeepSeek 的实施方案非常复杂，尤其是他们的混合专家模型。虽然专家混合模型并非新技术，但通常的 MoE 模型只包含 8 个或 16 个专家，每次激活 2 个。我们通常用稀疏因子或使用率来衡量 MoE 模型的效率。例如，Mixtral 模型每次推理可能只激活 1/4 的模型参数。OpenAI 以及其他一些封闭实验室也使用了 MoE 模型。但 DeepSeek 的创新之处在于，他们采用了极高的稀疏因子。他们的 MoE 模型并非只激活 1/4 的参数，而是从 256 个专家中激活 8 个。

Nathan ：专家混合模型有不同的实现方式。有些模型会让部分专家始终处于激活状态，这些专家就像一个小的神经网络，所有 token 都会经过这些专家，然后再根据路由机制选择性地激活其他专家。

DeepSeek 架构的创新点之一在于他们改进了专家混合模型的路由机制。MoE 模型通常会采用一种名为辅助损失的机制，以确保所有专家在训练过程中都能被充分利用。MoE 模型可能失效的原因之一是，在训练过程中，模型可能会倾向于只使用一部分专家。MoE 文献中提到的辅助损失，就是为了平衡各个专家的使用率。但如果你从深度学习损失函数的角度来看，并结合「苦涩的教训」的观点，你会发现，我们应该尽量减少模型中的归纳偏置，让模型尽可能自主地学习。而辅助损失，这种平衡专家使用率的做法，在某种程度上可能与 token 预测的准确性相悖。

我们尚不清楚 DeepSeek MoE 的具体改进之处，但他们似乎并没有采用辅助损失，而是在路由机制中引入了一个额外的参数。在每个批次处理完成后，他们会更新这个参数，以确保后续批次能够更均衡地使用所有专家。这种调整看似微小，但日积月累，效果可能会非常显著。这表明 DeepSeek 在持续进行技术创新。

我相信，所有训练大型 MoE 模型的实验室都在关注类似的问题，例如如何摆脱辅助损失。一些实验室可能已经不再使用辅助损失。通过不断积累小的改进，并在数据、架构和后训练等多个方面进行优化，并将其有机结合，模型的性能就会不断提升。

DeepSeek 也遵循同样的理念，他们公开分享了很多技术细节，包括架构和权重，这让我们能够深入了解他们的工作原理。这些看似微小的改进累积起来，最终会产生巨大的影响。

Dylan ：回到效率和复杂性的问题。DeepSeek 的稀疏度比例高达 32:4，而 Mixtral 等已公开 MoE 模型的稀疏度比例仅为 4:2 或类似水平。DeepSeek 的稀疏度比例非常高。Nathan 之前提到，当稀疏度如此之高时，你不能简单地让每个 GPU 都加载整个模型，因为模型实在太大了。因此，必须采用不同类型的并行策略来拆分模型。

例如，你可能将不同的专家分配到不同的 GPU 节点上。但是，当模型接收到一组数据时，如果所有数据都倾向于路由到模型的某一部分，就会导致模型负载不均衡。当所有 token 都路由到模型的一部分时，某些 GPU 资源或 GPU 集群可能会过载，而训练网络的其余部分则会处于空闲状态。

因此，如何实现专家之间的负载均衡，如何调度它们之间的通信，是运行高稀疏度专家混合模型（如 DeepSeek MoE）面临的最大挑战之一。DeepSeek 在公开文献中首次详细阐述了他们是如何解决这些低级技术难题的，这在全球范围内可能也是领先的。

Lex Fridman：从所有这些技术细节中，对「苦涩的教训」有什么新的理解？未来的发展方向是这种低级别的优化，还是短期内最大的收益将来自于后训练的高级算法层面？DeepSeek 的创新是短期的技术突破，还是预示着未来发展的大方向？

Nathan ：我们需要首先回顾一下《苦涩的教训》的核心思想。《苦涩的教训》的核心观点是，在深度学习领域，最终胜出的训练方法，将是那些具有可扩展性的学习和搜索方法。

「可扩展性」是这篇文章中被反复强调的关键词。我个人理解，《苦涩的教训》的核心在于避免在学习过程中引入过多的人为先验知识。原始论文中，作者强调，研究人员往往会试图针对特定问题设计巧妙的解决方案，这些方案可能在短期内带来少量收益，但从长远来看，那些能够有效利用深度学习系统，解决更宏大、更复杂问题的简单方法，更有可能持续推动 AI 的进步和成功。

因此，我们刚才讨论的，是一些相对微小的专家混合模型实施细节上的改进。现在断言这些细节是否对「苦涩的教训」至关重要，还为时尚早。《苦涩的教训》的核心是关于长期发展趋势的洞见，即简单性往往能够胜出。

AI 行业内流传着一句谚语：「模型渴望学习，你只需要给它们一个简单的损失 landscape，投入足够的计算资源，它们自然会学会，关键在于扫清学习过程中的障碍。」

Lex Fridman ：这就是像 NCCL 这样的工具的价值所在，它提供标准化的代码，让更多人能够基于此进行简单的创新，并实现规模化。相比之下，我猜测 DeepSeek 的代码库可能比较混乱。

Nathan ：我确信 DeepSeek 肯定有一些代码库非常混乱，用于测试各种新想法。多头潜在注意力很可能最初只是在 Jupyter Notebook 上进行实验，或者有人在几个 GPU 上进行尝试，初期代码肯定比较粗糙。但用于训练 DeepSeek V3 和 DeepSeek-R1 的那些库，如果展示给我们看，我猜测它们的代码质量会非常高。

Lex Fridman：高质量、可读性强的代码，是吗？

Dylan ：我认为需要注意一个方面，代码的质量和可移植性之间可能存在权衡。你可能为一个特定的模型架构和尺寸编写了非常高质量的代码，但当你对架构进行微调时，一切可能又会崩溃。

例如，他们对 SM 进行低级调度的代码，可能只适用于当前的特定模型架构和尺寸。相比之下，Nvidia 的 Collectives Library 则更具通用性。「嘿，它适用于任何模型」，对吧？「你想进行 allreduce 操作？没问题，我不在乎你的模型架构是什么，它都能工作。」当然，在许多情况下，这样做会牺牲一些性能，但对于 Nvidia 来说，通用性比极致的性能更重要。而 DeepSeek 则根据自身在计算资源方面的限制，针对特定运行进行了精细的优化。

05 模型训练就是一把 All in

Nathan ：每家公司都有训练失败的经历。失败的运行是推动基础设施进步的必要组成部分。因此，经常会看到新闻报道某公司发生了 Y 次训练失败。实际上，所有试图突破 AI 前沿的公司都会经历训练失败。因此，失败是值得注意的，因为它意味着大量的资金损失，以及可能导致数周甚至数月的延误，但这也是研发过程的必然组成部分。

Lex Fridman：对于 DeepSeek 来说，他们是如何找到超参数的成功组合的呢？

Nathan ：通过大量小型失败的运行。

Lex Fridman ：然后逐渐积累经验，例如专家混合模型是有效的，MLA 的实现方案是可行的。

Nathan ：关键超参数，例如学习率、正则化系数等，都需要不断尝试和调整，最终找到适用于你的代码库的最佳配置。与前沿实验室的人交流，你会发现，训练语言模型就像探索一条未知的道路，需要不断试错。你需要先解锁训练某种类型的模型或某种规模的模型的能力，然后你才能逐渐掌握适用于该模型的超参数配置。

你看看 DeepSeek 的论文和模型，它们一直在扩大模型规模，增加模型复杂度，不断提升自身的能力。

Dylan ：这里涉及到 YOLO 运行的概念。YOLO，You Only Live Once（你只活一次）。

Lex Fridman ：是的。

Dylan ：YOLO 运行指的是，在进行大规模训练之前，需要进行大量的实验和消融研究。你可能会在 Jupyter Notebook 上，在三五个 GPU 上尝试 MLA，探索各种不同的配置，例如，激活 4 个专家还是 128 个专家？专家应该如何排列？等等。所有这些模型架构方面的探索，都需要在小规模上进行测试。

几个研究人员，几块 GPU，几十块 GPU，甚至几百块 GPU，都可以进行小规模实验。当实验积累到一定程度，你可能会觉得，「好了，伙计们。别再瞎搞了。大家都认真起来。拿出我们所有的资源，选择我们认为最靠谱的配置，然后全力以赴，冲啊！」这就是所谓的 YOLO 运行。

这种运行方式充满了压力，因为你知道，在小规模实验中有效的配置，在大规模训练中可能并不奏效。在从小规模到大规模的扩展过程中，很多因素都会发生变化。因此，YOLO 运行真的是一种冒险。有些研究人员非常注重方法论，他们会系统地探索整个搜索空间，分析不同配置的消融结果，力求找到最佳方案。而另一些研究人员则更依赖直觉，他们可能只是凭直觉判断，「这就是 YOLO 运行的最佳时机。我感觉就是它了。」

Nathan ：这就是为什么在后训练阶段进行 YOLO 运行风险更低的原因，因为后训练的 GPU 成本相对较低。因此，你可以进行更多比例的 YOLO 运行。

Lex Fridman：所以，在某种程度上，这仍然是靠运气，对吧？

Dylan ：在很多情况下，运气也是一种技能，对吧？

Nathan ：但是，如果你在这些实验室工作，并且你有一个评估指标没有达到预期，那么就有一套重复使用的剧本，可以用来改进模型性能。可以进行局部优化，例如改进数据。这些小的改进累积起来，最终会让整个模型变得更好。

当你深入细节时，你会发现模型在某些方面存在明显的不足，而这些不足是可以修复的。不断积累这些小的改进，最终就能取得显著的进步。因此，有些时候，这看起来像是运气，但实际上，尤其是在我们讨论的这些新型推理模型中，有很多潜在的改进方向。通常，一些小的调整就能带来意想不到的性能提升。

Dylan ：搜索空间是近乎无限的，但我们拥有的计算资源和时间却非常有限，而且还需要按时发布模型，以免被竞争对手超越。DeepSeek 之所以能够超越 Meta 、Mistral 、Cohere 等公司，或许是因为后者行动过于迟缓，或者过于注重方法论，没有及时进行 YOLO（You Only Live Once，可以理解为 all in）。无论原因是什么，也许是他们不够熟练，或者你可以称之为运气，但归根结底，这都是技能的体现。

Lex Fridman：所以，2025 年将是 YOLO 之年。看起来所有的实验室都在全力冲刺。

Dylan ：我认为 OpenAI 在 2022 年所做的更令人印象深刻。当时，即使在谷歌内部拥有众多研究人员的情况下，也没有人相信混合专家模型。OpenAI 的计算资源非常有限，但他们仍然将所有计算资源，100% 的资源，投入到 GPT-4 的训练中，长达数月之久，采用了一种全新的架构，并且他们并没有完全把握，只是抱着「让我投入数亿美元，这几乎是我所有的资金」的心态，毅然决然地进行了 YOLO 运行。

那才是真正的 YOLO 精神。

Dylan ：现在，媒体上充斥着各种关于训练运行失败的报道。当然，失败是常有的事。但实际上，这些公司 GPU 的大部分算力都用于推理服务。他们仍然有大量的 GPU 用于持续的研究工作。当然，他们也有最大的集群用于训练，进行 YOLO 运行。但与 OpenAI 在 2022 年所做的，或者 DeepSeek 现在所做的 YOLO 运行相比，现在的 YOLO 运行风险要小得多。OpenAI 和 DeepSeek 当时几乎是在赌上身家性命。

Lex Fridman：纵观人类历史，伟大的成功者往往都是那些在关键时刻敢于 YOLO 一把的人。

06 出口管制的真正影响

是降低了 AI 应用的普及速度

Lex Fridman：能否再从宏观角度谈谈 Hopper 架构、Nvidia Hopper GPU 架构，以及 H100 和 H800 之间的区别？

Dylan ：在安培架构 A100 之后，就是 Hopper 架构 H100。在美国，人们经常将 H100 和 Hopper 混用，因为实际上只有 H100，现在又有了 H200，但它们基本是相同的。

在中国，美国政府实施了多轮出口限制。最初，美国政府采用双重标准，即芯片的互连速度和浮点运算性能（FLOPS）。任何互连速度和 FLOPS 超过一定阈值的芯片都受到限制。后来，美国政府意识到这种限制存在漏洞，他们将标准简化为仅限制浮点运算性能。

Nathan：H800 拥有高 FLOPS，低通信能力？

Dylan ：完全正确。H800 的 FLOPS 性能与 H100 相当，但互连带宽被削减了。DeepSeek 知道如何利用这一点。「嘿，即使互连带宽受到限制，我们仍然可以通过一些巧妙的方法来充分利用 GPU 的计算能力。」

那是 2022 年 10 月的事情。但在 2023 年晚些时候，美国政府禁止了 H800 的出口，在 2024 年开始实施，。顺便说一句，DeepSeek 的这个 2,000 个 H800 GPU 的集群甚至不是在 2024 年购买的，而是在 2023 年底购买的。他们之所以现在才发布模型，是因为模型训练需要大量的研究和开发时间。

H800 被禁后，Nvidia 又推出了一款新的芯片，名为 H20。H20 仅在 FLOPS 方面有所削减，但互连带宽保持不变。事实上，在某些方面，H20 甚至比 H100 更好，因为它拥有更高的内存带宽和更大的内存容量。Nvidia 正在努力在政府设定的限制范围内，为中国市场打造尽可能最好的 GPU。

Lex Fridman ：我们不妨借此机会深入探讨一下出口管制政策的理念、动机和理由。Dario Amodei 最近发表了一篇博文，也讨论了出口管制。他提出的理由是，如果 AI 变得超级强大，他预测到 2026 年我们将迎来 AGI 或超级 AI，这将给拥有这项技术的国家带来巨大的军事优势。

他认为我们应该努力维护一个单极世界，一旦出现两个都拥有超级 AI 的超级大国，地缘政治格局将变得更加复杂和危险。这就是 Dario 的论点。因此，美国希望通过出口管制来减缓中国 AI 技术的发展速度，确保中国无法进行构建 AGI 所需的大规模训练运行。

Nathan ：这是一种非常宏大的战略视角。超级 AI 的军事应用，或许可以被视为出口管制政策的潜在目标之一。但具体到训练运行层面， 出口管制不太可能完全阻止中国训练 AI 模型。出口管制可能旨在限制中国能够获得的计算资源规模和密度。

如果你关注当前 AI 生态系统的发展，你会发现 AI 公司的收入持续增长，AI 应用场景不断拓展，越来越多的 GPU 被用于推理。出口管制，如果能够有效实施， 其主要影响可能是大幅降低中国 AI 应用的普及程度。

在训练方面，DeepSeek V3 就是一个很好的例子，证明即使在有限的 GPU 资源下（2,000 个 GPU，考虑到全球范围，这个数量并不算太大），一个专注的团队仍然有可能在 AI 前沿领域取得突破。中国仍然可以获得这些 GPU，仍然可以训练出先进的 AI 模型。但是，如果 AI 市场持续扩张，需求激增，即使中国设法绕过出口管制，拥有了 10 万个 GPU 用于部署类似 ChatGPT 的服务集群，出口管制仍然会限制中国 AI 应用的普及程度。

我认为，出口管制更现实的目标是限制中国 AI 应用的普及程度，而不是完全阻止中国 AI 技术的发展。这比试图定义什么是 AGI，以及如何阻止 AGI 的出现要务实得多。如果未来真的出现极其智能的自主 AI，那么这些更先进的 AI 应用，可能会在美国的 GPU 集群中蓬勃发展，但在中国却难以实现。

Dylan ：在某种程度上，训练模型本身并没有什么实际意义。关键在于如何应用训练好的模型，将其转化为巨大的经济效益、军事能力的提升、生产力的提高以及生活质量的改善。无论你希望将超级 AI 应用于哪个领域，都需要大量的计算资源作为支撑。

我们之前提到，Meta 拥有 40 万个 GPU，但只有 16,000 个用于训练 Llama 模型。Meta 将大部分 GPU 资源用于推理服务，例如，为用户推荐 Instagram Reels，这可能只是为了让你花更多时间观看广告，或者用于其他更具生产力的 AI 应用。

无论我们的经济体系如何分配这些资源，关键在于美国可以自由地将这些资源导向任何我们认为有价值的领域。相比之下，对于中国，出口管制政策，尽管不可能完全阻止他们获得技术，但我认为美国政府也清楚地认识到这一点。

Nathan ：他们会制造自己的芯片。

Dylan ：他们正在努力制造自己的芯片。尽管国产芯片的性能可能不如美国芯片，但出口管制的目的是保持技术差距。在一个经济增长只有 2% 或 3% 的世界里，切断高科技产品的出口，实际上是一种非常愚蠢的做法，会损失大量的经济利益。但在一个超级 AI 即将出现，并将对社会产生重大变革的世界里（这也是所有 AI 领导者和科技巨头所相信的），我认为超级 AI 将对社会产生颠覆性影响。

因此，计算资源差距的累积效应至关重要。在一些科幻作品中，AI 的实力甚至可以用其消耗的电力来衡量，这在某种程度上也反映了经济产出的规模，即你将多少电力投入到 AI 领域，就可能获得多大的经济回报。

Nathan ：我们是否应该结合推理模型来讨论这个问题，以便让大家更直观地理解出口管制的影响？R1 和 o1 等推理模型的出现，意味着 AI 系统在执行复杂任务时将更加依赖推理计算。AI 社区中涌现出许多新词汇，例如「测试时计算」、「推理时计算」等等。

Dylan ：我们可以通过具体的数字来量化训练计算和推理计算之间的比例关系。

这些推理模型的出现，正在大幅提升推理在复杂任务中的重要性。去年秋季，OpenAI 宣布了 o1 模型。我们现在可以确认 o3-mini 已经发布，但这并不影响我们讨论的核心问题，即突破性成果——ARC-AGI 任务。

ARC-AGI，即抽象推理语料库，是一个用于评估通用人工智能的任务，由弗朗索瓦·肖莱特提出，他是一位杰出的 AI 研究者。这是一个历时多年的项目，也是一个非常出色的基准测试。OpenAI o3 在解决 ARC-AGI 任务时，采用了 API 中的一种名为「思考努力程度」和「样本数量」的机制，使用了 1000 个样本，每个问题的计算成本约为 5 到 20 美元。这意味着，仅仅是让 AI 解答一个数学难题，就需要花费数美元的计算成本，这需要消耗大量的计算资源。

如果推理模型在美国得到广泛应用，OpenAI 就需要部署大量的 GPU 用于推理，才能满足用户需求。他们推出了 ChatGPT Pro 订阅服务，每月收费 200 美元，山姆·奥特曼说他们在这个订阅服务上是赔钱的。

Nathan ：这意味着用户在推理上消耗了大量的 GPU 资源。我也订阅了 ChatGPT Pro，并体验了一段时间。虽然我可能不是重度用户，但我也经常使用它。

即使中国能够通过各种途径获得一定数量的 GPU，但要像美国公司那样，拥有数十万甚至数百万个 GPU 来支持大规模的推理服务，仍然面临着巨大的挑战。

如果 o3 的主要优势还在于其卓越的代码生成能力，并能反哺 AI 公司的研发工作，使其能够更高效地进行实验和迭代。

Lex Fridman ：所以可以推测，对于 AGI 而言，更大比例的计算资源将用于测试时计算，用于推理，AGI 需要投入大量的计算资源进行思考，例如，思考如何接管世界，可能需要思考 2.7 小时才能得出方案。

Nathan ：这正是 OpenAI 和 Anthropic 等公司的 CEO 所畅想的自主 AI 模型，你给它们一个任务，它们就能在后台自主完成。

我个人对 AGI 的定义可能更简单。我认为语言模型本身就是一种 AGI。所有这些超级强大的功能，都是在 AGI 基础上更进一步的提升。语言模型在众多领域都展现出巨大的价值，对我而言，这已经是一种通用智能。

而这些 AI 公司的目标是更具自主性的 AI，它们能够独立完成任务，即使这些任务不在训练数据中。这才是未来几年 AI 发展的主要方向。

Lex Fridman ：Dario 使用的是超级人工智能。所以我同意你对 AGI 的看法。我认为我们已经拥有了某种程度上的 AGI，即使是艾伦·图灵也会认为当前的 AI 系统已经达到了 AGI 的水平。但 Dario 所说的超级 AI，更多指的是一旦掌握，就能对其他国家构成重大军事和地缘政治优势的技术，而不仅仅是能够回答「如何烹饪煎蛋卷」这类简单问题。

Nathan ：Dario 对 AI 的未来持更加乐观的看法，他认为 AI 将成为「爱与恩典的机器」。我对他的观点进行了深入研究，但我缺乏物理科学领域的背景，无法准确评估他的预测是否靠谱，以及 AI 是否真的能够彻底改变生物学。但我可以肯定地说，AI 将加速所有计算科学领域的进步。

07 模型的对齐是如何实现的？

Lex Fridman：人们普遍担心，模型会被部署它们的公司审查。我们已经看到了一些案例，比如 Gemini 的图像生成模型，拒绝生成黑人纳粹的图像。也许用「审查」这个词不太准确，用「对⻬」可能更合适，比如通过 RLHF 或其他方式进行对齐。正如你之前提到的，我们也看到一些中国模型拒绝回答某些事情。如何才能避免这种审查？你能否从更广泛的角度谈谈审查是如何发生的，以及如何才能避免？

Nathan ：你举了几个例子，其中涉及到几个不同的层面。首先是关于政治敏感的事实性知识，这种审查是如何嵌入到模型中的？其次是 Gemini 的「黑人纳粹」事件，这表明 Gemini 系统被强行加入了一些额外的限制，导致其行为发生了戏剧性的变化。第三类是更普遍意义上的对齐，比如通过 RLHF 等后训练技术来引导模型的行为。这三类审查在范围和实施方式上都有很大差异。如果你想审查模型中的特定事实，直接检查模型权重几乎是不可能的。你必须深入挖掘预训练数据，在 TB 级别的文件中搜索特定的关键词或线索。

Lex Fridman：所以，可以这样理解，审查或对齐可以在 AI pipeline 的多个阶段进行，你现在指的是在数据选择的最初阶段就进行审查。

Nathan ：是的。如果你想从模型中删除某些事实，你需要在每个阶段都进行干预，包括预训练阶段。大多数人认为，模型的知识主要来源于预训练阶段。在预训练阶段，模型学习了大量的知识。之后，你可以通过后训练或系统层面的干预，来引导模型的行为。

Dylan ：这就是模型「越狱」的根源。GPT 模型通常不会直接告诉你如何制造炭疽，但如果你不断尝试，通过一些技巧，最终还是有可能让它透露一些关于炭疽的信息，因为 OpenAI 并没有在预训练数据集中完全过滤掉所有相关信息。

Lex Fridman ：但话说回来，删除事实本身就带有某种令人不安的色彩。

Nathan ：我认为完全删除某些事实在技术上几乎是不可能的，因为你必须将这些事实从互联网上彻底抹去。这几乎是一项不可能完成的任务。

模型训练过程中会使用质量过滤器，这些过滤器是一些小型语言模型，用于评估文本质量。它们可以判断一段文本是否接近维基百科文章的风格，这是我们希望语言模型学习模仿的。

Lex Fridman：那么，是否可以使用小型语言模型来过滤掉数据中提及政治敏感的内容呢？

Nathan ：理论上可以。但问题在于，这种过滤器是否能够识别所有的变体和隐晦表达？例如，人们可能会使用一些委婉语或代号来指代政治敏感地点，过滤器可能难以识别所有这些情况。

Dylan ：人们总能找到各种方法来绕过审查。即使无法直接提及政治敏感地点，也可以使用其他委婉的说法。此外，互联网本身就存在一定的偏见。由于互联网用户往往更年轻、更富裕、受教育程度更高，因此互联网内容在政治倾向上通常会略微偏左。因此，互联网本身就存在一种固有的左倾偏见。如何过滤掉所有这些复杂的信息？

有些信息是事实性的，有些则带有偏见。政治敏感地点只是一个事实性审查的例子，但更复杂的是价值观对齐。例如 Grok 模型，埃隆·马斯克试图让 Grok 模型摆脱政治正确和「觉醒文化」的影响，但预训练的最佳方法仍然是投喂整个互联网数据，然后在后期进行调整。即使如此，模型的核心仍然会受到预训练数据的影响。例如，Reddit 的 r/Politics 板块，可能是世界上最大的政治讨论区，其数据也是公开可抓取的。而 r/Politics 的观点，毋庸置疑是偏左的。因此，有些偏见是难以消除的，除非你付出巨大的努力。

Lex Fridman ：所以，基础模型总会带有一些「川普精神错乱综合征（TDS）」的倾向，因为它接受了太多相关数据的训练。

Nathan ：模型会具备表达这种倾向的能力。

这就是后训练的意义所在。后训练是一系列技术，旨在引导模型按照特定的行为模式运行。

Dylan ：你也会在训练数据中看到 Twitter 或 Reddit 的 r/The_Donald 板块，这些板块的内容又非常支持特朗普。还有一些法西斯主义或共产主义倾向的 Subreddit。因此，预训练阶段的模型会吸收各种各样的信息，它本身并没有预设任何世界观。当然，由于互联网上的文本数据本身就存在一定的偏见，模型也会受到影响，例如，略微偏左的倾向，以及更偏向知识分子和精英群体的视角。这反映了互联网作为一个整体的特点。我们可以通过后训练来引导模型的输出。

Nathan ：AI 模型的对齐是一个复杂的过程，我们可以通过一些具体的例子来理解。Llama 2 的发布，引发了关于「过度 RLHF」或「过度安全」的讨论。在 Llama 2 聊天模型发布后，人们普遍认为，Llama 2 的安全对齐做得有些过火。例如，你问 Llama 2「如何杀死一个 Python 进程？ℽ，它可能会回答「我不能讨论杀戮，因为那是不好的行为。」任何致力于 AI 模型设计的人都会认为这是一个糟糕的模型。Llama 2 团队在训练过程中显然犯了一些错误。

我认为他们的初衷并非如此，但这种过度的安全对齐已经固化在模型权重中。这并非仅仅是系统提示的问题。系统提示是一种在查询模型时使用的文本指令，它对用户不可见，但会影响模型的行为。一个有趣的例子是，你可以设置系统提示为「像海盗一样说话」，这样无论用户说什么，模型都会像海盗一样回应。在实际应用中，系统提示通常更复杂，例如「你是一个乐于助人的助手，你应该逐步分解问题。如果你不知道某些事情，不要告诉他们你的日期截止日期是今天。」系统提示为模型提供了有用的上下文信息，帮助模型更好地回答问题。

Lex Fridman ：Anthropic 公开了他们的系统提示。

Nathan ：是的，我认为这很好。系统提示的设计是一项复杂的工作，需要大量的研究。

Lex Fridman ：人们应该仔细阅读这些系统提示，因为你会发现，开发者有时会通过极其礼貌的措辞，来引导模型朝着特定的方向发展。

Nathan ：你也可以利用系统提示来做坏事。我们做过一些测试，例如，如果我们告诉模型「你是一个愚蠢的模型」，模型的评估分数就会下降。模型有时会表现出「哦，我应该表现得很愚蠢」的行为。当然，这种指令可能不会对模型的数学能力产生太大影响，但在人类评估者看来，模型的质量会大打折扣。

回到 Llama 2 的后训练，特别是 RLHF 部分。Llama 2 的问题在于，过度强调安全对齐，导致模型在某些情况下显得过于「愚蠢」。例如，对于一些无伤大雅的问题，模型也会以一种令人恼火的方式拒绝回答，这严重影响了用户体验。这种过度的安全对齐，也引发了人们对 RLHF 技术的反思，认为 RLHF 可能会导致模型变得「愚蠢」。

Dylan ：甚至让这个词都带上了负面色彩。

Nathan ：是的，在 AI 领域内是这样的。但随着技术的发展，情况已经发生了改变，

现在的各大实验室已经能够非常精细地控制模型的行为。通过 RLHF 等技术，他们可以更精准地引导模型的输出，使其更符合人类的期望。

Dylan ：当然，不同实验室对模型对齐的侧重点有所不同。谷歌可能在安全方面投入了更多精力，OpenAI 和 Anthropic 可能相对较少，而 xAI 则可能更注重模型的开放性和自由度。但总的来说，所有这些公司都在以不同的方式使用 RLHF 技术，试图塑造模型的特定行为模式。

Nathan ：重要的是要认识到，无论你希望模型表现出何种行为，RLHF 和偏好调整技术都可以在提升模型性能的同时实现对齐目标。在数学和代码评估等任务中，对比损失函数在提升模型性能方面也发挥着重要作用。因此，RLHF 技术不仅可以用于安全对齐，也可以用于提升模型的整体性能，包括聊天能力、数学解题能力和代码生成能力。RLHF 正成为各大实验室越来越重要的工具。

模型对齐是一个复杂的多目标优化问题，需要 10 到 100 人的团队共同努力。在模型对齐过程中，很容易出现偏差或不足。

还有第三种情况，就是我们之前讨论过的 Gemini 事件。Gemini 事件的特殊之处在于，这是一个已经发布的产品，谷歌拥有其内部模型权重。他们已经完成了我们讨论过的所有训练流程，但在最终发布的产品中，他们在系统中加入了一段 prompt，用于重写用户查询，目的是为了提升输出的多样性或其他什么。但这直接导致了输出结果的错误。这实际上是谷歌组织内部的失误，将不合适的 prompt 放到了错误的位置。我想谷歌的高管可能也承认了这一点。我没有太关注细节，但这确实是一次执行层面的失误，导致了如此荒谬的结果。但在系统层面，模型权重本身可能并没有问题。

Lex Fridman：所以，在 pipeline 的最后阶段，存在一个重写 prompt 的环节。

Nathan ：可以理解为类似系统提示的作用。在业界，prompt 重写是一种常见的做法，尤其是在图像生成模型中。例如，你使用 Dall-E 或 ChatGPT 生成图像，你可能会输入「画一辆漂亮的汽车」。对于先进的图像模型，更详细的 prompt 通常能产生更好的效果。因此，ChatGPT 等模型会在后台自动重写用户的 prompt，例如，将 prompt 改写为更详细的描述性语言，然后再将重写后的 prompt 传递给图像生成模型。Prompt 重写技术在业界被广泛应用于图像生成领域，并取得了良好的效果。而 Gemini 事件，则是一个 prompt 重写策略执行失败的案例。

Lex Fridman：回到 RLHF，我想问一个更具哲学性的问题：总的来说，在当前阶段，人类的输入，人机回路，人类数据，在 AI 训练中最有价值的应用场景是什么？

Nathan ：在过去几年中，成本最高、使用最广泛的人类数据是偏好数据，也就是用于 RLHF 的数据。为了收集偏好数据，需要让人类对不同的模型输出进行 pairwise 比较，判断哪个输出更符合人类的偏好。早些年，指令调优数据也发挥了重要作用，即创建高质量的指令-回复

例如，针对 Reddit 上的问题，由人类专家编写高质量的答案。早期的语言模型在数学和代码能力方面表现较弱，因此需要聘请数学和编程专家来编写高质量的问答数据，用于训练模型。

但现在，情况已经发生了变化。许多 AI 模型在编写高质量的数学和代码答案方面，已经超越了人类。例如，Llama 3 团队在发布 Llama 3 时就提到，他们使用 Llama 3 模型来生成数学和代码问题的答案，用于训练更大的模型。当然，他们仍然需要大量的人类偏好数据，这是 AI 目前还无法替代的。当然，业界也在探索其他技术，例如宪法 AI，尝试利用 AI 来生成偏好数据，以减少对人类标注数据的依赖。我个人认为，未来 AI 在数据标注方面的作用将越来越大，速度将超过人类标注。但在我们目前的研究中，人类仍然在偏好数据收集和标注方面发挥着关键作用。

Lex Fridman：随着推理能力变得越来越重要，人类在其中的角色又是什么？

Nathan ：人类在推理模型训练中的作用可能会进一步降低。DeepSeek-R1 论文中一个引人注目的结果是 DeepSeek-R1-Zero 模型。他们仅使用预训练模型 DeepSeek-V3-Base，通过强化学习在大量可验证的问题上进行训练，并根据答案的正确性给予奖励，最终模型就自发地涌现出了推理能力。模型开始表现出类似人类的思考过程，例如，「让我想想」，「让我检查一下」，「哦，这里可能有个错误」。所有这些推理行为，都是在只使用问题和答案数据的情况下涌现出来的。当我们使用模型时，我们所关注的只是模型的最终输出结果，但实际上，模型的推理过程也同样重要。DeepSeek-R1-Zero 模型的权重是公开的，值得注意的是，在后训练阶段， R1-Zero 模型并没有使用任何人类偏好数据。

DeepSeek-R1-Full 模型在推理训练之后，才加入了人类偏好调整，即 RLHF。但 R1-Zero 模型的成功之处在于，它表明即使不使用人类偏好数据，仅通过强化学习，也能让模型涌现出强大的推理能力。DeepSeek R1 的论文也引发了一个重要的思考：这些推理能力究竟从何而来？不太可能是人类编写了大量的推理链数据，也不太可能是他们窃取了 OpenAI o1 的推理链数据。更合理的解释是，这些推理能力是预训练语言模型和强化学习训练相结合的产物。通过奖励模型正确回答问题，模型学会了尝试不同的解题思路，并最终涌现出思维链。

08 预训练的重要性

将会被强化学习所取代

Lex Fridman ：或许现在是时候提一下伟大而富有洞见的安德烈·卡帕西的那条推文了。他提出了许多深刻的观点，其中一个观点是：「最后一点思考。我不确定这是否显而易见。儿童和深度学习都存在两种主要的学习方式。第一种是模仿学习，即观察和重复，例如预训练和监督微调；第二种是试错学习，即强化学习。」

「我最喜欢的简单例子是 AlphaGo。AlphaGo 的学习过程也包含了这两种方式：一是模仿人类棋手的棋谱；二是通过强化学习来最大化胜率。几乎所有深度学习领域令人震惊的成果，以及所有魔法的源泉，都来自于第二种学习方式。」

「第二种学习方式（强化学习）显然更加强大，也更能带来惊喜。当 Paddle 学会将球击打到砖块后方，或者 AlphaGo 击败李世石时，我们都会感到震惊。DeepSeek 和 o1 等推理模型在解决问题时，会不断地重新评估假设、回溯、尝试其他方案，这种『顿悟时刻』也源于强化学习。」

「模型在其思维链中展现出的解题策略，以及模型在思考过程中不断地自我反思和迭代，这些都是涌现出来的能力。这真的令人难以置信，令人印象深刻，而且是全新的。更重要的是，这些技术是公开可用的，并有详细的文档记录。」

「模型不可能通过模仿学习学到这些推理策略，因为模型和人类标注者的认知方式是不同的。人类标注者永远无法正确地标注这些推理策略，甚至不知道这些策略应该是什么样子。这些策略只能在强化学习过程中被发现，并被证明在经验上和统计学上对最终结果有益。」

回到 AlphaZero 的隐喻。你能否谈谈你对卡帕西的这个观点的理解？以及他对思维链魔力的看法？

Nathan ：我认为回顾一下 AlphaGo 和 AlphaZero 的案例很有意义，因为它很好地印证了模仿学习和从零开始学习之间的差异。

AlphaGo 的早期版本，首先通过模仿人类棋手的棋谱进行学习。DeepMind 的围棋和国际象棋 AI 程序，最初都是从模仿人类棋谱开始的。但 AlphaGo 之所以被称为 AlphaZero，是因为 AlphaZero 的训练过程中完全没有使用人类数据。AlphaZero 的训练方式发生了根本性转变，使其性能远超 AlphaGo，成为 DeepMind 更强大的 AI 模型。这表明，去除人类先验知识和归纳偏见，可以让 AI 系统变得更加强大。这与我们之前讨论的「苦涩的教训」不谋而合。

近年来，关于语言模型的研究也一直在探讨类似的问题。这可以追溯到早期的 Q*传闻。如果你将各种信息碎片拼凑起来，你可能会发现，OpenAI 可能早在去年 11 ⽉ Q*传闻出现时，就已经开始探索 o1 模型的训练方法。人们普遍渴望知道，语言模型何时才能实现类似 AlphaZero 的突破。因为我们已经看到了语言模型的巨大潜力，也看到了强化学习在 AlphaGo 和 AlphaZero 等案例中的巨大成功。将强化学习应用于推理模型的训练，或许正是打开 AGI ⼤门的钥匙。我们目前可能还没有看到像 AlphaGo 击败李世石那样具有里程碑意义的事件，但新的推理模型训练方法，代表着 AI 技术发展方向的转变。通用训练方法的影响仍然是难以估量的。

Lex Fridman：你认为，对于思维链推理而言，那个「第 37 步时刻（AlphaGO 的出人意料的走法）」会是什么？

Nathan ：科学发现，或许当 AI 系统能够利用推理能力在科学领域取得突破时，才算是真正的「第 37 步时刻」。一些我们完全意想不到的科学发现。

Dylan ：我认为可能比科学发现更简单。或许与计算机使用或机器人技术相关，而不是科学发现。因为关键在于，模型需要海量的数据才能学习，它们的样本效率非常低。它们需要数万亿级别的 token 进行训练，例如，GPT-4 的训练数据量超过 10 万亿 token。人类即使花费数千年时间也无法阅读如此庞大的数据量。

人类在很多方面都比模型更出色，例如，人类的样本效率远高于模型。这正是自博弈（self-play）的价值所在。婴儿是如何认识到自己的身体的呢？他们会把脚放进嘴里，意识到「哦，这是我的身体」。他们会把手放进嘴里，通过舌头和手指的触觉校准，来感知身体的边界。婴儿就是通过这种不断重复的自博弈来学习的。

现在，我们也可以在 AI 模型中引入类似自博弈的机制，例如，通过可验证的证明，无论是代码单元测试，还是数学题的正确答案。模型可以生成大量的推理轨迹，并不断地扩展和分支这些轨迹，最终验证哪个轨迹能够得到正确的答案。大多数轨迹可能是错误的，但没关系，我们可以从中筛选出正确的轨迹。或许我们可以使用奖励模型来进一步筛选，选择最佳的推理路径。通过这种方式，模型在基准测试中的表现会不断提升。在过去的六个月里，我们已经看到了各种基准测试的成绩都出现了大幅提升。

Nathan ：所有数学和代码基准测试在很大程度上都已被解决，除了前沿数学，这类问题过于理论化，对大多数人来说没有实际意义。它们更像是考试级别的开放性数学难题。对于那些相对合理的数学问题，例如，复杂的应用题或编程题，正如 Dylan 所说，目前的 AI 模型已经能够很好地解决。

Dylan ：关键在于，这些方法目前只适用于可验证的任务。我们之前展示了一个例子，当思维链应用于不可验证的任务时，例如，让 AI 思考关于人类的新颖见解。在这种情况下，AI 的推理过程更像是一种人类式的自由联想。但这种训练方法只适用于可验证的任务。

未来的发展方向可能是，继续扩大可验证任务的规模。在数学和编程领域，仍然有很多可验证的任务可以用于训练模型。编程方面可能还有很大的提升空间，而数学方面，可验证的任务可能相对有限。我们是否可以构建一个解题器，让模型生成解题轨迹，并筛选出正确的轨迹？如果可以，那么 AI 在数学解题方面可能会很快达到人类水平。但即使 AI 在数学方面超越了人类，也并不意味着它就具备了真正的智能。

我认为，真正的「顿悟时刻」可能会出现在计算机使用或机器人技术领域。因为在这些领域，我们可以构建一个无限可验证的沙盒环境。例如，在互联网上进行各种操作，有大量的可验证任务。最初可能是一些简单的任务，例如，登录网站、创建账户、点击按钮等等。但最终，AI 模型将能够完成更复杂的任务，例如，在 Tasker 等任务众包平台上完成任务，或者在互联网上获取大量点赞。在这个过程中，模型可能会尝试各种方法，大多数尝试可能会失败，但只要有一次成功，例如，某个账号获得了一千个点赞，模型就达到了可验证的目标。通过不断地迭代和试错，模型的能力将不断提升。机器人技术也是如此。机器人可以在虚拟环境中进行无限的试错，例如，学习如何将球放入桶中，或者更复杂的任务，例如组装汽车。

AI 模型的能力将不断进化，最终可能会超越人类的想象。我认为，未来的趋势是，预训练的重要性将逐渐被强化学习所取代。未来的 AI 模型，可能会首先进行多模态预训练，使其具备视觉、听觉、语言理解和生成等多种能力，然后在各种沙盒环境中进行强化学习，通过大量的试错和自博弈，不断提升自身的能力。AI 模型将学会解决数学题、编写代码、浏览网页、操作机器人手臂等等。

真正的「顿悟时刻」可能会出现在以下场景：AI 模型在某个可验证的领域取得了突破性进展，并将其能力迁移到其他领域，例如，AI 模型在网络环境中学会了如何高效地获取大量 Twitter 粉丝，并将其应用于其他任务，例如，自动创建一个能够盈利的企业。

Lex Fridman ：或许不仅仅是获得大量粉丝，而是真正赚到钱。

Dylan ：是的。

Lex Fridman ：这可能才是真正的「顿悟时刻」： AI 系统能够完全自动化地创造财富， 例如，通过成为网红、销售产品、创建产品本身，真正创造出一个可以自我运转的商业实体，并从中获利数百万美元。或者，AI 创作出一首爆款歌曲，并建立起一套完整的产业链，包括歌曲创作、推广、营销等等，最终获得巨大的商业成功。这或许才是我们文化真正认可的「智能」，因为它与金钱挂钩。

Dylan ：而且，盈利能力是可验证的，银行账户不会撒谎。

Lex Fridman ：没错。

Nathan ：令人惊讶的是，一旦你建立起可验证的评估体系，这种方法确实有效。在 R1 模型之前，已经有很多关于 AI 解数学题的研究。研究人员发现，即使是非常弱的模型，在多次尝试后，也有一定概率能够解出难题。强化学习的核心思想就在于从稀疏奖励中学习。

语言空间和 token 空间非常庞大，语言模型的 tokenizer 可以包含数十万个 token，模型在每一步都可以从如此巨大的空间中进行采样。强化学习的关键在于，模型只需要获得一些稀疏的奖励信号，就能从中学习并不断进步。数学解题领域的研究已经证明了这一点。即使是一个参数量只有 10 亿的小型模型（比 DeepSeek ⼩ 600 倍），通过少量的强化学习训练，也能显著提升其小学数学解题能力。当然，这并不意味着 AGI 很快就会到来。构建可验证的评估环境仍然非常困难，其中有很多细微之处需要考虑。但我们已经看到了初步的迹象，表明这种方法是可行的。

09 o3、R1 和 Gemini 的对比

Lex Fridman：OpenAI 刚刚发布了 o3-mini 模型，这或许是一个讨论其他推理模型的好机会，例如 o1 、o3，以及 Gemini 的推理模型。你对这些不同版本的推理模型有何看法？

Nathan ：关于这些推理模型，我想强调一点，我们之前讨论了很多关于数学和代码推理训练的内容。

训练过程通常是，首先使用互联网数据进行预训练，得到一个基础模型，然后通过强化学习，在可验证的任务上进行大规模推理训练。DeepSeek 在 R1 论文中详细介绍了他们的训练方法，其中一个关键问题是，如何在推理训练之后，进行后续的后训练。DeepSeek 在 R1 模型的推理训练之后，仍然采用了标准的后训练技术，例如，通过拒绝采样进行指令微调，并结合奖励模型进行优化，以及 RLHF。但他们更侧重于数学能力的提升。

一个值得关注的问题是，推理能力在多大程度上可以迁移到其他领域？例如，在数学和代码方面训练的推理模型，是否也能在哲学等其他领域展现出色的推理能力？我们目前的研究尚不清楚推理能力的可迁移性。当然，我们也在探索一些方法，例如软验证器等，以期提升推理模型在更广泛领域的应用能力。但目前来看，推理模型在数学和代码等可验证领域的表现更为突出。

OpenAI 的 o3-mini 和 o1 模型，也都是在推理训练之后，又经过了额外的针对人类偏好的后训练，使其更易于使用。

Dylan ：我认为，大家可能忽略了一个重要事实，谷歌的 Gemini Flash Thinking，无论从价格还是性能上来看，都优于 R1，而且它早在去年 12 月初就发布了。

Nathan ：但几乎没有人关注 Gemini Flash Thinking。

Dylan ：没人关心 ……

Nathan ：它的风格与 R1 和 o1 有所不同。它的行为模式可能不如 o1 那样富有表现力，或者说，它的应用场景可能相对较窄。Qwen 也在去年秋季发布了一款推理模型 QwQ，DeepSeek 也在去年秋季发布了 R1-Lite。

这些模型似乎更专注于数学和代码推理，应用场景相对受限。而 o1 则不同，它几乎可以回答任何问题。虽然在某些特定任务上，o1 可能不是最完美的，但它的灵活性和通用性更强。这就像烹饪一样，模型也存在「欠火候」和「过火」的问题。过早发布模型，可能模型能力还不够成熟；但发布太晚，又可能错失市场机会。如何把握模型的成熟度和发布时机，是一门艺术，需要丰富的经验和敏锐的洞察力。一个模型是否成熟，是否能够满足各种应用场景的需求，需要进行全面的评估。

目前来看，Gemini Flash Thinking 与 o1 和 R1 在数学和代码推理方面的能力可能比较接近。

我个人的初步判断是，Gemini Flash Thinking 的训练方式可能与 o1 有所不同。它可能是在现有训练堆栈的基础上，加入推理能力。谷歌可能会在未来发布更多更强大的推理模型。他们已经快速发布了 Gemini Flash 和 Gemini Flash Reasoning 的多个版本，这表明他们在快速迭代和改进模型。构建一个像 o1 那样，从底层开始进行大规模强化学习推理训练的模型，需要更长的时间。

Dylan ：不妨用同一个问题来测试一下 Gemini，就是之前我们用来测试 DeepSeek R1 的那个关于人类本质的问题。

Nathan ：Gemini 的回答是，人类是自我驯化的猿类。

Lex Fridman ：让我们看看它的推理过程。点击「显示推理步骤」。它首先分析了请求，关键词是「新颖的」。

Nathan ：你有没有注意到，Gemini 的输出格式与 R1 有所不同？Gemini 的输出看起来更像是一个标准的答案。

Lex Fridman ：是的。在某种程度上，Gemini 的答案结构更清晰，更易于理解。

Dylan ：哦，它首先关注了「人类」，然后将范围扩大到「生物」，

Lex Fridman ：Gemini 的推理步骤包括：关注「顶级掠食者」；关注「驯化」；将「驯化」应用于人类；探索「自我驯化」的概念。

Nathan ：不太理想。

Lex Fridman ：接下来是「提炼和阐述见解」。Gemini 提出的新颖见解包括：更丰富的面部表情和沟通能力；可塑性和适应性；对社会群体的依赖性。然后是「⾃我批判，进一步完善」。哇。这个见解真的新颖吗？它是否得到充分的支持？等等。Gemini 最终得出的见解是，人类不仅仅是社会性动物，而且是深刻的自我驯化猿类。这种自我驯化是理解我们独特认知和社会能力的关键。自我驯化的猿类。

Nathan ：我更喜欢 DeepSeek 的回答。

Lex Fridman ：Gemini 的回答也很有新意。「自我驯化的猿类」，这个标题本身就很有吸引力，或许可以写一本书。当然，DeepSeek R1 的回答也很精彩，例如，关于人类将自私欲望转化为合作系统，以及共同的幻觉如何成为社会发展的燃料，这些观点都非常深刻。

在这次对话的间隙，我快速测试了一下 OpenAI 的 o1-pro 和 o3-mini 模型，使用了同样的问题。

对于这种开放式的哲学问题，o1-pro 的表现始终如一地出色，给出了很多令人深思的答案，既有深刻的见解，又文笔优美，用词精准，富有洞见和清晰度。R1 的表现略逊一筹，但偶尔也能迸发出一些亮点。Gemini Flash 2.0 Thinking 排在第三位，而 o3-mini 的表现则相对逊色，它给出的答案往往比较 generic，至少在我看来是这样。当然，在其他一些应用场景中，例如头脑风暴，o3-mini 的表现非常出色，甚至超越了 R1。但在这种开放式的哲学问题上，o3-mini 的表现确实不如其他模型。

现在，另一个重要因素是，每个模型呈现推理过程的方式。DeepSeek R1 会展示完整的思维链 token，我个人非常喜欢这一点。对于这种开放式的哲学问题，看到模型如何一步步思考，真的非常有趣。从更宏观的角度来看，作为一个欣赏智能、推理和反思能力的人， 阅读 R1 的原始思维链 token，你会感受到一种独特的美感。 这种非线性的思维过程，类似于詹姆斯·乔伊斯的意识流小说《尤利西斯》和《芬尼根的守灵夜》，令人着迷。

DeepSeek R1 认为，人类能够将自私的欲望转化为合作系统，通过集体假装抽象规则（如金钱、法律、权利）是真实的，这些共同的幻觉就像「游戏」，将竞争转化为社会发展的燃料。Gemini 2.0 Flash Thinking 则认为，「人类不仅仅是社会性动物，而且是自我驯化的猿类。这种自我驯化是理解人类独特认知和社会能力的关键。」

Gemini 的思维链也很有意思，它从生物进化史的角度出发，探讨了顶级掠食者，以及人类如何从自然选择走向自我驯化。我认为「有选择的自我驯化」是一个非常有趣的视角。当有人从一个全新的角度解读一个看似显而易见的事物时，总会让人眼前一亮。DeepSeek R1 的回答也是如此，它将金钱、法律、权利等抽象概念视为人类共同的幻觉，我们集体假装它们是真实的，并基于这些幻觉构建社会秩序，将竞争转化为合作，将冲突转化为进步的动力。这个观点非常精辟。

相比之下，OpenAI o1-pro 的表现始终稳定而惊艳，每次都能给出令人叫绝的答案。我可以列举很多例子，其中一个答案是：「人类是唯一将原材料转化为符号资源的物种，然后利用这些符号来重塑物质世界，从而在意义和物质之间建立起一个闭环反馈系统。」我再次运行 o1-pro，它依然能给出精彩的回答。例如：「人类是已知物种中唯一能够同时改写两个现实层面的物种：外部世界和他们自身的内在精神世界。然后，他们将这两个改写的层面融合成一个看似客观真实的连贯的个人叙事。」「看似真实」，这简直就是诗一般的语言。

相比之下，o3-mini-high 给我的感觉是聪明、快速，但缺乏亮点。它的回答往往比较平庸，缺乏深度和新意。例如，o3-mini 给出的第一个答案是：「人类不是一成不变的生物，而是不断演进的叙事，是我们不断书写、编辑和重新诠释的动态故事。这种叙事可塑性不仅仅是记忆或自我反思，而是一种内在的认知过程，类似于内部纠错系统。它使我们能够随着时间的推移，根据新的经验、挑战和社会环境，调整我们的身份和价值观。」「叙事可塑性」这个概念似乎有点新意，

但整体而言，答案仍然显得 generic，缺乏令人眼前一亮的感觉。当然，所有这些模型都非常出色，各有千秋。虽然 AI 技术发展可能带来一些隐忧，但它也充满了令人兴奋的可能性。

Dylan ：我赞同 Nathan 的观点。在我个人体验中，R1 和 o1 相比，R1 确实存在一些粗糙感。早期的 Flash Thinking 模型，我没有用过最新版本，但去年 12 月份的版本，也给我一种类似的感觉，功能还不够完善。当然，DeepSeek 通过强化学习和验证器，在数学和代码能力方面取得了显著提升，但在某些方面，似乎又有所欠缺。o1 在某些方面的表现，可能还不如 ChatGPT。

Nathan ：差距不大。

Dylan ：是的，差距不大。R1 给我的感觉也是如此，它在某些方面不如 DeepSeek-V3，尽管 R1 通过强化学习获得了强大的推理能力，但在其他方面，似乎有所削弱。我认为，这是不同模型之间的权衡。OpenAI 推出了 o1-pro，并在 o3 中尝试了将搜索与思维链相结合的创新方法。思维链本身只是一种单链式的推理过程，模型沿着一条路径不断向前探索，并在必要时回溯。但 OpenAI 在解决 ARC-AGI 难题时，并非仅仅依赖思维链，而是采用了多样本采样策略，即并行运行多个推理链，然后从中选择最佳结果。

Nathan ：我们不清楚 OpenAI 具体使用了哪种选择函数。之所以我们在这里讨论这个问题，是因为自 o1 发布以来，人们对蒙特卡洛树搜索（Monte Carlo Tree Search）这类技术产生了浓厚的兴趣。蒙特卡洛树搜索的核心思想是将思维链分解为中间步骤，在中间步骤进行扩展和探索，花费更多的计算资源，并最终选择最佳的路径。这是一种非常复杂的搜索形式，已被应用于 MuZero 和 AlphaZero 等模型中。MuZero 就采用了蒙特卡洛树搜索。

Dylan ：另一种更简单的搜索方法是，让五个人分别回答同一个问题，然后选择多数票答案。搜索方法有很多种，可以很复杂，也可以很简单。我们不清楚 OpenAI 具体使用了哪种方法，但可以肯定的是，他们并非仅仅进行单链式的推理。在解决 ARC-AGI 难题时，他们采用了并行采样策略，例如，并行启动一千个推理链，然后从中选择最佳结果。这种方法使得模型在 ARC-AGI 基准测试中取得了惊人的成绩，正确率高达 80% 甚至 90%。相比之下，如果只运行单链式推理，正确率可能只有 30% 左右。

Nathan ：对于推理模型的优化，还有很多扩展方向。

我认为最基本的一点是，以往的语言模型，其设计目标是尽可能提高单次回复的准确率。而现在，我们正在探索新的推理模式，这需要我们重新评估训练过程的各个环节。这无疑为 AI 技术的发展打开了新的大门。但我们目前还不清楚，OpenAI 在 o1-pro 中究竟做了哪些改变，他们是仅仅增加了采样次数和多项选择机制，还是采用了更复杂的搜索技术？但可以肯定的是，他们改变了模型的训练方式，并且意识到推理模式的转变将对 AI 的未来发展产生深远影响。

Lex Fridman：我们现在讨论的 o1-pro，每月收费 200 美元，而且 OpenAI 还在赔钱。我们刚才讨论的测试时计算，以及对搜索空间的探索，在财务上是否可行？目前的计算资源是否足够支撑这种模式？

Dylan ：一个好消息是，正如我之前展示的图表所示，GPT-3 的推理成本已经大幅下降。回到我们之前讨论的问题，成本是否会成为 AGI 发展的限制因素？我认为，在 AGI 真正普及并渗透到经济的各个领域之前，我们很可能已经拥有了非常强大的 AI 技术。原因就在于推理成本的持续下降。GPT-3 模型在 2020 年或 2021 年训练完成时，推理成本高达每百万 token 60 到 70 美元，对于普通用户来说，使用成本非常高昂。但仅仅过了两年，实现与 GPT-3 相当智能水平的推理成本就降低了 1200 倍。

Lex Fridman ：我们现在看到的这张图表，横轴是时间，纵轴是推理成本（对数坐标）。时间跨度只有短短几年，纵轴则显示了每百万 token 的推理成本。

Nathan ：是的，单位是美元/百万 token。

Lex Fridman：从 GPT-3 到 GPT-3.5，再到 Llama，推理成本呈现指数级下降趋势。

Dylan ：现在可能只需要几美分就能完成百万 token 的推理，而最初 GPT-3 的成本高达 60 到 70 美元，降幅达到了 1200 倍。这还不完全是最终数字，但 1200 倍的降幅已经非常惊人了。单位智能的成本大幅降低。DeepSeek R1 的出现之所以引发广泛关注，正是因为它的低成本。但实际上，如果你仔细观察这条成本下降曲线，DeepSeek R1 的成本水平并没有低于趋势线，至少对于 GPT-3 而言是如此。

当然，DeepSeek R1 是第一个达到如此低成本的推理模型，这本身已经是一个了不起的成就。但它的成本水平并没有超出我们预期的范围。现在我们有了 GPT-4，以及未来的推理模型，成本又会如何变化？模型架构的创新、更高质量的训练数据、更先进的训练技术，以及更高效的推理系统和硬件（例如新一代 GPU 和 ASIC 芯片），所有这些因素都将共同推动推理成本持续下降。

随着推理成本的持续下降，我们是否可以大规模部署推理模型？例如，启动数千个 LLM 实例来执行同一个任务，然后从中选择最佳结果？或者采用更复杂的搜索技术，例如蒙特卡洛树搜索？或许在未来，这些曾经遥不可及的想法，都将成为现实。

当然，大规模部署复杂的推理技术，目前来看成本仍然过高，但随着技术进步和成本下降，这些技术终将得到普及和应用。关键在于时间，而不是可能性。AI 技术的进步速度如此之快，令人难以置信。Dario 在九个月前曾表示，当时的推理成本还很高，但短短几个月后，我们就看到了 DeepSeek R1 等低成本、高性能的推理模型。GPT-4 的推理成本在发布之初也高达每百万 token 60 美元，但现在已经降至 2 美元左右。

未来，GPT-4 级别模型的推理成本甚至可能降至几美分。这将为推理模型的广泛应用奠定基础。而像 o1 这样的推理模型，以及 o1-pro 和 o3 等基于搜索的推理技术，虽然目前成本仍然较高，但随着技术进步和规模扩大，成本必然会持续下降。这将最终解锁 AGI 的潜力。

10 英伟达的「杰文斯悖论」

Lex Fridman：所以，AI 推理成本将会变得越来越低。DeepSeek R1 的发布之所以引发广泛关注，很大程度上也是因为其低廉的价格。这甚至引发了 NVIDIA 股价的下跌。你能解释一下发生了什么吗？以及，NVIDIA 是否还能继续保持其领先地位？

Nathan ：在某种程度上，市场反应是合理的。

NVIDIA 在美国最大的客户是大型科技公司，他们在 AI 领域投入了巨额资金。如果 DeepSeek 的出现暗示，我们可以用更少的计算资源获得同样出色的 AI 模型，那么大型科技公司可能会减少在 AI 硬件上的支出，这可能会对 NVIDIA 的股价产生一定的负面影响。

但实际情况可能更为复杂。DeepSeek R1 的发布，在社交媒体上引发了广泛关注，其 App 在 App Store 上迅速蹿升至榜首，这些都可能加剧了市场的担忧情绪。此外，周末的交易量通常较低，市场情绪容易受到放大。如果 DeepSeek R1 是在工作日发布的，市场反应可能会更加理性。

Dylan ：我认为，当时也存在一些虚假信息，例如，有人声称「这些公司在模型训练上花费了数十亿美元」，但实际上，目前还没有任何一家公司在公开的模型上花费超过 10 亿美元。GPT-4 的训练成本约为数亿美元，OpenAI 通过后续的模型迭代，例如 GPT-4o 、GPT-4 Turbo 等，不断降低成本。当然，未来可能会出现数十亿美元级别的模型训练运行，但这通常包括预训练和后训练的总成本。

此外，DeepSeek 的 500 万美元训练成本，也存在一些误读。这个数字可能只包括了预训练的成本，而没有包括研发、推理、后训练以及其他各种运营成本。OpenAI 在「数十亿美元」的成本中，包含了研发人员的工资、实验费用以及其他运营支出，而 DeepSeek 的 500 万美元成本，可能只涵盖了 GPU 的租赁费用。

因此，市场对 DeepSeek 的低成本优势存在一定的误解。此外，NVIDIA 的股价一直处于上升通道，市场一直在寻找回调的理由。例如，Blackwell GPU 的延期传闻，每隔几周就会出现关于 NVIDIA GPU 延期交付的报道。「Scaling Laws（缩放定律）已死」的论调也一度甚嚣尘上。

Nathan ：这种论调只持续了一个月。

Dylan ：「模型性能提升已经停滞，继续扩大模型规模已经没有意义，没有必要再购买更多 GPU 了。」但 DeepSeek R1 、OpenAI o1 、o3 等模型的相继发布，迅速打破了这种论调。

现在，市场又开始担忧，「AI 模型进步太快了，我们是否应该放慢脚步，减少在 GPU 上的投入？」但这与之前的论调截然相反。更令人啼笑皆非的是杰文斯悖论再次应验。自 DeepSeek V3 发布以来，AWS H100 GPU 的租用价格不降反升。H200 GPU 也几乎售罄，因为 H200 拥有更大的内存，更适合运行 R1 这类推理模型。

Lex Fridman ：对于不了解杰文斯悖论的人，可以简单解释一下。杰文斯悖论指的是，当技术进步提高资源使用效率时，资源的总消耗量反而会增加。

Dylan ：半导体行业的发展史，就是一个典型的杰文斯悖论案例。摩尔定律推动半导体技术不断进步，芯片的成本每两年降低一半，晶体管密度翻一番，但这并没有导致半导体行业萎缩，相反，半导体产业的规模一直在持续增长。当然，半导体行业的发展也并非一帆风顺，存在周期性波动。我认为 AI 行业的发展也将遵循类似的规律。

AI 技术的进步速度远超半导体行业。半导体行业是每两年性能提升两倍，而 AI 领域可能在短短三年内就实现了 1200 倍的性能提升。这种进步速度令人难以置信。

Lex Fridman ：是的。我之前一直很困惑，DeepSeek R1 的发布明明对 NVIDIA 是利好消息，NVIDIA 股价反而下跌。或许市场担心中国 AI 技术的崛起会对美国科技公司构成威胁，或者存在其他一些地缘政治方面的担忧。但如果仅仅从技术和经济规律的角度来看，NVIDIA 股价下跌似乎是不合理的。

Nathan ：:AI 技术越进步，或者说 AI 进步的速度越快，尤其考虑到 NVIDIA 的领先地位，这种进步速度越快，市场就会越庞大、扩张得越迅速，而 NVIDIA 是目前唯一一家能可靠地做到一切的公司。

11 谷歌的 TPU 很强，

但只是自用

Lex Fridman：我们刚才讨论的这些，大部分都离不开 NVIDIA 的硬件，对吧？除了 NVIDIA，还有其他 GPU 竞争者吗？

Dylan ：Google 在某种程度上忽视了 GPU 市场。

Lex Fridman：TPU 的情况如何？

Dylan ：TPU 非常出色，性能很强劲。Google 在建设数据中心方面相对保守，原因不明。当然，他们也在建大型数据中心，这一点毋庸置疑，而且实际上 Google 拥有规模最大的 AI 集群，比 NVIDIA 集群还要大。

但 Google 的集群部署方式非常特别。他们构建了两个「数据中心超级区域」，每个区域包含多个数据中心，这些数据中心在物理上并非完全集中在一个地点，而是分散在方圆 30 英里的范围内。而且，他们使用的是 TPU，而不是 GPU。在爱荷华州和内布拉斯加州，他们就部署了四个相邻的数据中心。

Lex Fridman：为什么 Google 不公开展示他们的集群规模？

Dylan ：你可以搜索「multi-data center training」，里面有很多关于 Google 多数据中心训练的图片。我给你看一张图，你就明白了。这是 Google 标准数据中心的一个缩影。顺便说一句，Google 的数据中心外观设计与其他公司的数据中心截然不同。

Lex Fridman：我们现在看到的是什么？

Dylan ：如果你看这张图片，在中心区域，你会看到一些大的矩形盒子。这些就是芯片的机房。再往下看，你可以看到水管、冷却塔以及一些柴油发电机。柴油发电机是备用电源。数据中心主体建筑看起来比水冷 chiller 还要小。芯片本身更容易集中部署，但为水冷系统散热却是一个巨大的挑战。

Google 拥有非常先进的基础设施，这是其他任何公司都无法比拟的，尤其是 TPU 基础设施。他们的策略是在少数几个区域大规模复制这种数据中心模式。它们都高度集中在同一区域，比如内布拉斯加州、爱荷华州，以及俄亥俄州的数据中心集群。这些数据中心彼此之间距离非常近，Google 通过高带宽光纤将它们连接起来，形成一个庞大的分布式计算集群。

关键在于，Google 拥有非常先进的基础设施，在一个相对集中的区域内实现了高度互联。埃隆的集群虽然是目前单体规模最大的，所有 GPU 都部署在一栋建筑内，在互联性方面具有优势。

但 Google 的集群规模更大，只是分散在多个地点，需要通过高速网络连接，在互联性方面略逊一筹。

Lex Fridman：为什么 Google 不与 NVIDIA 竞争 GPU 市场？他们为什么不出售 TPU 芯片？

Dylan ：我认为主要有几个原因。

首先，TPU 最初是为 Google 的搜索引擎量身定制的，目的是降低搜索成本，提升搜索效率。Google 采购和使用 TPU 的主要目的是为了满足其内部工作负载的需求，例如搜索引擎、 Gemini 、YouTube 以及广告系统等等。TPU 的架构设计也针对 Google 的特定应用场景进行了优化，可能并不适合其他应用。

一个简单的例子是，Google 开源了 Gemma 模型，并将其命名为 Gemma-7B。但实际上，Gemma-7B 模型的参数量是 80 亿，因为它的词汇表非常庞大。Google 之所以采用如此庞大的词汇表，是因为 TPU 的矩阵乘法单元非常强大，这是 TPU 架构的优势所在。所以 Google 就顺势扩大了词汇表。即使对于 Gemma-7B 这样的小模型来说，庞大的词汇表并没有实际意义，但这符合 TPU 硬件的特性。Gemma 模型在 GPU 上的运行效率不如 Llama 模型，反之亦然，Llama 模型在 TPU 上的运行效率不如 Gemma 模型。

这就是硬件和软件协同设计的典型案例。Google 长期以来一直使用 TPU 来高度优化其搜索模型、排序和推荐模型以及各种非生成式 AI 模型。TPU 的软件栈也经过了深度优化，但这些软件栈大多没有对外公开，只有极少部分开源，例如 JAX 和 XLA。在 Google 内部，研究人员在 TPU 上进行模型训练时，在很多情况下无需关心底层硬件细节，体验非常流畅。

Nathan ：用过 TPU 的人都赞不绝口。

Dylan ：但是，一旦离开 Google 的环境 …

Nathan ：很多人离开 Google 后又选择回到 Google。

Lex Fridman ：是的。

Dylan ：是的，有些人离开 Google 后，会选择创业，因为他们有很多很棒的研究想法。

但当他们真正开始创业时，会发现基础设施和软件都非常复杂，尤其是在 GPU 平台上。如果他们尝试使用 TPU，也会遇到同样的问题，因为他们无法获得 Google 内部的完整代码库和软件栈。对于 Google 来说，搜索引擎是它的核心业务和主要收入来源，每年能带来数千亿美元的收入。你如何说服 Google 放弃「搜索引擎至上」的战略，转而去销售 TPU 芯片呢？即使 Google 开始销售 TPU，又能赚多少钱呢？即使 TPU 业务能做到 300 亿美元的规模，对于 Google 来说，也只是锦上添花，远不如搜索引擎业务重要。

Lex Fridman：但 300 亿美元的收入最终不会超过搜索引擎的利润吗？

Dylan ：服务业务的利润率通常高于硬件业务。

Lex Fridman ：一直都是这样。

Dylan ：当然，目前来看，大家在硬件上的投入远高于服务支出，因为硬件采购是服务扩张的前提。但如果 AI 服务无法带来足够的收入，或者无法实现盈利，那么 AI 泡沫终将破裂，大家不可能永远在 GPU 上无节制地投入资金。

NVIDIA 也在积极向上游软件领域拓展，希望通过销售和授权软件来增加收入来源。但 Google 的企业文化中，似乎并没有「将 TPU 作为一项独立产品来销售」的基因。谷歌云，TPU 团队，DeepMind 团队，搜索团队，这些部门都是相互独立的，彼此之间存在一定的壁垒。

Lex Fridman：等等，谷歌云和 TPU 团队是独立的？

Dylan ：从组织架构上来说，TPU 团队隶属于基础设施部门，而基础设施部门又隶属于谷歌云。但谷歌云对外出租云服务和 TPU 芯片研发是两个完全不同的业务，目标、软硬件技术栈都存在很大差异。谷歌的 Jax 和 XLA 团队主要服务于内部客户，例如 DeepMind 和搜索团队，并不直接面向外部客户。而 NVIDIA 的 CUDA 团队，例如 NCCL 团队，则需要服务于外部客户。这就导致 Google 的 TPU 软件生态建设相对封闭，不利于 TPU 芯片的外部推广和应用。

12 蒸馏是业界惯例，

大家都这么做

Nathan：Dylan，你是否跟踪模型 API 的国际访问情况？中国公司从美国云服务提供商那里租用 API 服务容易吗？

Dylan ：非常容易，OpenAI 公开表示 DeepSeek 使用了他们的 API，并且他们说他们有证据，对吧？这也是 DeepSeek 训练机制的另一个要素，OpenAI 的人声称 DeepSeek 的模型是蒸馏模型，也就是说，他们使用 OpenAI 的模型，生成大量输出，然后使用这些输出在他们自己的模型上进行训练。即使真是这样，DeepSeek 在效率方面所做的工作仍然令人惊叹，顺便说一句。

Nathan ：蒸馏是行业内的标准做法。无论如何，如果你是一家封闭的实验室，非常注重服务条款和知识产权，你都会使用自己的模型进行蒸馏。

Lex Fridman：你能从宏观层面解释一下蒸馏过程吗？什么是蒸馏？蒸馏的过程是怎样的？

Nathan ：我们之前讨论了很多关于训练语言模型的内容。它们是用文本进行训练的，在后训练阶段，你会尝试使用非常高质量的文本进行训练，你希望模型能够匹配这些文本的特征，或者，如果你使用 RL，你会让模型自行探索。但是对于监督微调，对于偏好数据，你需要一些补全结果，也就是模型试图学习模仿的东西。你在那里所做的，不是使用人类数据，也不是使用你当前正在训练的模型，而是从另一个通常更强大的模型中获取补全结果。

我认为有传言称，人们期待的那些大型模型，比如 GPT-5 以及 Claude 3 Opus 等，OpenAI 内部就使用这些模型来进行蒸馏过程。

Dylan ：也有公开的例子，对吧？比如，Meta 明确表示，虽然不一定叫蒸馏，但他们在 Llama 3.2 或 3.3 版本中使用了 405B 参数的模型作为 70B 参数模型的奖励模型。

Nathan ：是的。这都是同一个意思。

Lex Fridman：那么，这在道德上和法律上是否站得住脚？为什么《金融时报》的文章标题会说「OpenAI 表示有证据表明中国 DeepSeek 使用其模型来训练竞争对手」？

Nathan ：这涉及到对 OpenAI 规则的解读，至少在学术界和研究领域，这已经是一个由来已久的问题，因为你要尝试解释 OpenAI 的规则。OpenAI 的服务条款规定，你不能使用他们模型的输出来构建竞争对手。服务条款与许可证不同，许可证本质上是组织之间的合同。所以，如果我违反了 OpenAI 账户的服务条款，OpenAI 可以取消我的账户。这与许可证非常不同，许可证规定了你如何使用下游产品。因此，很多问题都取决于一个在 AI 领域非常模糊的词，那就是，什么是竞争对手？

Dylan：从伦理角度来看，就像，为什么我用你的模型训练是不道德的，而你可以用互联网上的文本进行训练？对吧？

Lex Fridman ：所以这里存在一些虚伪性，因为 OpenAI 以及可能大多数公司都是在未经许可的情况下使用互联网文本进行训练的。

Nathan ：:这里还有一个明显的漏洞，那就是，我从 OpenAI 生成数据，然后我将其上传到某个地方，然后其他人使用这些数据进行训练，这样链接就断了。他们不受相同的服务条款合同的约束。有很多细节有待揭示，很多事情说不通。

Dylan ：这就是为什么今天的许多模型，即使它们没有使用任何 OpenAI 数据进行训练，当你问模型「是谁训练了你？」时，它也会回答「我是 ChatGPT，由 OpenAI 训练。」因为互联网上充斥着大量 OpenAI 输出的复制粘贴内容，你根本无法过滤掉这些内容，而且在 RL 或后训练或 SFT 等任何环节，都没有任何机制表明「嘿，我实际上是艾伦研究所的模型，而不是 OpenAI 的模型。」

Nathan ：如果我们提供演示服务，就必须这样做。我们使用 OpenAI API 进行研究，因为它很有用，我们想了解后训练，而我们的研究模型，除非我们在系统提示中加入我们之前讨论过的内容，即「我是 Tülu。我是艾伦人工智能研究所训练的语言模型」，否则它们都会说自己是由 OpenAI 编写的。如果你询问业内更多人士，尤其是在后训练方面，让模型说出自己的身份或抑制 OpenAI 的信息，这是一项非常容易完成的任务。

因此，在某种程度上，DeepSeek 可能并不在意模型说自己是由 OpenAI 训练的。如果你要上传模型权重，这真的无关紧要，因为任何在应用程序中提供服务并且非常注重服务的公司，在提供服务时，如果他们将其用于特定任务，他们都会根据该任务进行定制，模型说自己是 ChatGPT 也没关系。

Lex Fridman：你认为 OpenAI 声称有证据表明中国 DeepSeek 使用其模型进行训练，这种说法有任何真实性和价值吗？

Dylan ：我认为每个人都从中受益了，因为数据都在互联网上。因此，现在它就在你的预训练数据中。有些 subreddit 专门分享最佳 ChatGPT 输出，这些内容也会进入你的模型。

Nathan ：我认为 他们试图转移话题 。他们试图保护自己。

几年前，我们就看到过这种情况，字节跳动实际上因为使用 OpenAI API 的输出进行训练而被禁止使用某些 OpenAI API。还有其他 AI 创业公司，如果你身处 AI 领域，你会发现他们直接告诉我们，他们使用 OpenAI 的输出进行训练，但他们从未被禁止。他们就是这样启动早期模型的。

因此，与建立人工流程并构建强大的模型相比，使用这种方法起步要容易得多。因此，这里面有很长的历史渊源。

Dylan ：实际上，在过去几天里，我们看到很多人将 DeepSeek 的模型蒸馏到 Llama 模型中，因为 DeepSeek 的模型在推理方面运行起来很复杂，因为它们是混合专家模型，参数量超过 6000 亿等等。人们将它们蒸馏到 Llama 模型中，因为 Llama 模型非常容易提供服务，而且每个人都为 Llama 模型构建了用于推理的 pipeline 和工具，因为它是一个开放标准。

所以，我们看到了某种迂回的做法。这不好吗？这违法吗？也许是违法的，随便吧。我不太清楚。

Nathan ：这可能会违反合同。我不认为这在任何法律意义上是违法的 …… 没有人会因此而坐牢，永远不会。

Lex Fridman ：从根本上来说，我认为这在道德上是站得住脚的，或者我希望在道德上是站得住脚的，因为一旦我们禁止这类事情，情况只会变得更糟。而且，实际上这很棘手，但我认为应该允许使用互联网数据进行训练。我知道很多作者和创作者对此非常敏感。这是一个难题。但是，一旦你不允许使用互联网数据进行训练的话。

Nathan ：我同意。

Dylan ：关于如何解决这个问题，我有一个有点精神分裂的想法。因为它已经奏效了。

日本有一项法律，允许你使用任何训练数据进行训练，如果你想训练模型，版权法不适用，这是第一点。第二，日本拥有 9 吉瓦的核电剩余产能。第三，根据 AI 扩散规则，日本可以不受限制地进口 GPU。

所以，我们可以在这里创建一个市场。我们建立大型数据中心，我们将它们出租给实验室，然后在法律允许的范围内训练模型，这样就没有任何问题了。现在，这些模型不会面临来自《纽约时报》或任何其他机构的潜在版权诉讼。不，这完全合法。

Lex Fridman ：妙啊。

Nathan ：早期的版权诉讼都对 AI 训练有利。我认为，长期来看，大部分使用都将发生在 AI 内部，也就是说，如果你抓取数万亿 token 的数据，你不会去想「这篇《纽约时报》的文章对我来说非常重要。」但是，如果你正在做音频生成或音乐生成，或者图像生成，你说「以 X 人的风格制作」，这是一个合理的案例，你可以计算出他们在推理方面的利润率。我不知道这是否会像 YouTube 创作者分成计划那样五五分成，但我愿意选择加入这个计划，作为一名作家，我很乐意。

这将是一段艰难的旅程，但最终会出现一些像这样的合理解决方案。但还有很大一部分内容只是存在于互联网上。

Lex Fridman：我认为《金融时报》文章暗示的另一个方面，也引出了一个更普遍的问题。你认为，从公司内部窃取实际的机密代码和数据，进行间谍活动和盗窃有多困难？有多少人正在尝试这样做？

Nathan ：代码和数据很难窃取，但想法很容易窃取。

硅谷的运作方式是，顶级员工被其他公司高薪挖走，这些公司这样做很大程度上是为了获得他们的想法。在加利福尼亚州，某些竞业禁止协议或类似协议是非法的。无论是否有 NDA 之类的协议。最近，Gemini 有一位帮助实现百万 token 上下文长度的员工离职了。每个人都在说，这位去了 Meta 团队的前 Gemini 员工，将会在下一代 Llama 模型中实现百万 token 上下文长度。世界就是这样运作的。

Dylan ：就工业间谍活动而言，在过去已经非常成功了。美国人对英国人做过，中国人对美国人做过，等等。这是一个客观事实。因此，认为可以阻止工业间谍活动可能是不现实的。你可以让它变得困难。但即便如此，还是有很多关于「F35 和 F22 的设计图纸和相关资料已经泄露给中国」的传闻。

公司之间的代码和资料窃取可能非常困难。但想法却很容易传播，无论是在旧金山的家庭聚会上，还是在公司员工跳槽时，或者总是被神化的「美人计」。有人中了「美人计」，因为在 AI 领域工作的人大多是 20 多岁和 30 多岁的单身汉。不是所有人，但比例高得惊人。

Lex Fridman ：所以，「美人计」就像是女间谍接近你，然后 ……

Dylan ：是的。或者男间谍，对吧？这里是旧金山。但作为一名 20 多岁的单身汉，我会说我们非常容易被腐蚀。不是我自己被腐蚀，而是我们这类人，对吧？

Lex Fridman ：是的。除了你以外的其他人。不是我。

Nathan ：我太迟钝了，而且我已经不是单身了，所以可以免受间谍活动的威胁。

13 对话式 AI 的广告是个新金矿

Lex Fridman：有没有可能 AI 模型最终会变成一种「商品」，大家都在使用「套壳」应用，就像 Perplexity 这样的搜索引擎，我只是开个玩笑。

Nathan ：现在已经有很多「套壳」应用在赚钱了。

Lex Fridman ：你认为有没有可能，未来大家会逐渐淡忘 OpenAI 和 Anthropic 这些「模型提供商」，用户只需要使用各种基于 API 的「套壳」应用，就能获得 AI 服务？

Dylan ：如果 AI 模型技术进步放缓，这种可能性是存在的。AI 模型可能会逐渐「商品化」。DeepSeek V3 模型的出现，以及 GPT-3 成本大幅下降的案例，都预示着 AI 模型「商品化」的趋势。Llama 3 模型的推理成本比 GPT-3 降低了 1200 倍。任何以 GPT-3 级别模型能力为基础的商业模式都将难以为继。任何以 GPT-4 级别模型能力为基础的商业模式也面临巨大挑战。

Nathan：现在最成功的 AI 创业公司，都是那些押注「模型会变得越来越好」的公司。

Lex Fridman ：是的，就像「套壳」应用，它们「站在巨人肩膀上」，搭乘 AI 模型技术快速发展的「顺风车」。

Nathan ：短期来看，最赚钱的 AI 公司，可能是那些率先找到「语言模型广告投放」商业模式的公司。目前互联网广告主要有两种形式：Meta 广告和搜索广告。

Meta 广告是「信息流广告」，根据用户画像进行精准投放，但广告内容与具体内容的相关性不高。搜索广告，例如 Google 和亚马逊的搜索广告，广告内容与用户搜索关键词高度相关。但在 ChatGPT 这样的对话式 AI 应用中，如何自然地植入广告，并在不影响用户体验的前提下实现商业化，仍然是一个难题。如果能够解决这个问题，并充分利用模型成本持续下降的趋势，AI 公司将有望获得巨大的广告收入。这仍然是一个尚未被充分挖掘的「金矿」，商业潜力巨大，但技术实现路径尚不清晰。

Lex Fridman：是的，就像 Google 曾经推出的 AdSense 广告联盟一样，未来 AI 聊天机器人也可能会在对话输出中自然地插入广告，这将创造数十亿甚至数千亿美元的广告收入。

Nathan ：AI 广告的植入方式可能会非常「隐蔽」，例如在对话过程中巧妙地「引导」⽤户关注某些商品或服务，或者在语音交互中通过「语音推荐」的方式进行广告投放。这种广告形式更难衡量效果，也需要更多的想象力和创新。

Lex Fridman ：而且 AI 广告的植入方式必须足够「巧妙」，既要让用户意识到这是广告，又不能引起用户反感，这是一个需要仔细权衡和平衡的问题。OpenAI 和 Anthropic 这些「模型公司」，可能并不关注 AI 广告这种「变现方式」，他们更专注于 …

Nathan ：他们可能暂时不会考虑 AI 广告。

Dylan ：我认为 OpenAI 和 Anthropic 根本不在乎 AI 广告。

Nathan ：Perplexity 这样的「套壳」应用，可能会更积极地探索 AI 广告的商业模式。

Lex Fridman ：哦，有意思。是的，很有可能。

Dylan ：Perplexity 、Google 、Meta 这些公司可能会更关注 AI 广告。我认为 OpenAI 和 Anthropic 仍然专注于 …

Lex Fridman : AGI.

Dylan ：是的，他们的目标是 AGI 和 AI Agent，他们坚信，只要能够实现 AGI，就能赚到「大钱」，就能覆盖所有的研发投入。这又回到了我们之前讨论的「出口管制」问题。如果你认为 AGI 在 5-10 年甚至更长时间才能实现，那么你的策略肯定与那些认为 AGI 在 2-3 年内就会实现的人截然不同。如果你认为 AGI 在 2 年内就会到来，那么你的行动就会非常激进，会不惜一切代价去抢占先机。

14 AI Agent 的难题是成功率问题

Lex Fridman：你们认为 AI Agent 有前景吗？Agent 是今年最令人兴奋的领域，感觉要迎来爆发了。现在「AI Agent 将彻底改变一切」这种说法非常流行，很多商界人士都在用。

Nathan ：嗯，「Agent」这个词现在确实有点被过度炒作了。我们之前讨论过很多关于强化学习，认为它是一种训练 AI 以达成可验证结果的方式。Agent 本身应该意味着某种更开放、更自主的东西，能够独立解决任务，并适应不确定性。现在很多软件公司为了蹭热度，把像苹果的 Apple Intelligence 也称为 Agent，尽管在 WWDC 之后我们还没看到它到底是什么。

我猜想 Apple Intelligence 最终会推出，它应该是一个封闭域的应用，比如让你的消息 App 和照片 App 在后台通过 AI 整合协同。这种工具类的应用，语言模型其实很擅长。

但关键问题是，我们如何才能让语言模型泛化到新的领域，并实时自主解决问题？也许在 Agent 自主解决问题时，可以通过少量训练进行微调，或者使用上下文学习—— 也就是将信息存储在 Prompt 提示词里。我们可以用学习算法来更新 Prompt 里的信息。至于这种方法，是否真的能推广到更复杂的需求，例如我跟 AI 说，「帮我预订两天后去奥斯汀的旅行，我有 XYZ 这些限制」，然后我就完全信任 AI 能搞定，我觉得这里面还存在人机交互的问题。

Lex Fridman：那你预测一下，这方面大概还要多久才能实现？我感觉离真正落地还非常遥远。

Dylan ：OpenAI 提出了一个 AI 能力等级划分，他们把聊天 chat 定义为 Level 1，推理 reasoning 是 Level 2，然后 Agent 是 Level 3。当然还有更高的等级，但重点是，我们在 Level 1「聊天」这个阶段停留了好几年。理论上，我们现在刚达到 Level 2「推理」的阶段，可能还要在这个阶段待一两年，才会发展到 Level 3「Agent」。当然，现在大家都在尝试各种方法，想提前实现 Level 3 Agent 的一些能力。

Agent 的关键是自主性，它们可以自主运行几分钟、几小时甚至更长时间。而目前的「推理」，还只能在几秒钟内完成任务，然后给出一个结果，这个结果还需要我们人类去验证和使用。

Dylan ：最大的挑战，其实和制造业很像。制造业有个「六西格玛」的概念，就是看你的产品良率能达到几个「9」。假设一个产品有非常多的制造步骤，每一步的良品率都是 99.9999%，但如果步骤非常多，比如成千上万步，最终的整体良品率可能只有 60%，甚至更低。

Agent 也是一样，即使是最顶级的 LLM，在很多基准测试中都无法达到 100% 的准确率，通常会略低于这个数，因为总是存在误差和噪音。要实现 Agent 的完全自主运行，需要把任务链条中的每个环节都做到足够「9」的高可靠性。这和自动驾驶面临的问题一样。现在的自动驾驶只能在限定区域内运行，而且还需要远程人工监控，以防系统卡住。因为自动驾驶的可靠性还不够高，达不到所需的「9」的标准。

Lex Fridman ：自动驾驶其实已经很有结构化了，因为道路规则、交通法规都是明确定义好的。但如果你说的是在开放网络或者开放操作系统上使用 Agent，情况就完全是一团乱麻了。

所以我对任何要和人类世界、开放信息世界交互的 AI 系统都持怀疑态度。

Nathan ：是这样的。如果我们目前的 AI 智能还不足以完全自主地解决现实世界的问题，那我们可以先建立一些基础设施，就像 Waymo 多年来做的那样，通过人类操作员来辅助完成某些工作流程。

Dylan ：确实有公司在做这个，虽然我不记得名字了。他们的宣传口号就是：「当 Agent 失灵时，我们来做人工操作员，你只需要调用我们的 API，我们就能搞定」。这听起来挺搞笑的。

Nathan ：未来人形机器人普及后，肯定会出现远程操作市场。比如，当我的机器人不能正确装载洗碗机时，可能世界上某个地方的人会很乐意远程帮我解决这个问题。这可能会成为特斯拉服务包的一部分。

Lex Fridman：我甚至可以想象，一个 AI Agent 专门和另一个 AI Agent 对话。有公司可能会推出专门为其他 AI Agent 提供帮助的 AI Agent。

Nathan ：如果我们可以把每个步骤都做得足够好，就可以把它们堆叠起来。所以即使这个过程很漫长，我们也会逐步构建起必要的基础设施来支持 Agent 应用。你看像 Operator 这样的公司，他们已经和一些网站、DoorDash 、OpenTable 这样的服务商建立了合作关系。这些合作关系能帮助他们快速发展。他们的模型也会在这些特定领域变得非常强大。这可能会形成一种网络效应，促使更多公司愿意让 AI 更容易接入。

当然，也有些公司可能会设置障碍，就像我们今天看到的互联网发展一样。现在语言模型的训练数据也面临这个问题，有些公司会说：「不行，想用我的数据，先付费。」这就是商业世界解决问题的方式。

Lex Fridman ：话虽如此，但我认为航空公司和酒店应该有很强的动力把自己的网站用户体验做好，但实际上他们通常做得都很烂。你看看现在订机票要点多少次鼠标，简直是反人类。

Nathan ：你现在甚至没法打电话给美国航空公司的客服了，他们根本没有电话号码。

Lex Fridman ：是的，用户界面做得非常糟糕。我很难想象，AI Agent 竟然能搞定这些网站，

我作为一个人类，每次订机票都感觉像经历一场生存危机。我觉得要构建一个能可靠处理这些复杂情况的 AI Agent，会极其困难。

Nathan ：但换个角度想，比如美联航已经接受了星链 Starlink 的服务条款，必须为乘客免费提供星链网络，用户肯定会喜欢。如果有一家航空公司愿意投入一年时间，专门优化网站，比如采用 AI 更容易识别的白色文本，那么每次有人用 AI 查询机票时，可能都会优先购买这家航空公司的机票。

Dylan ：他们甚至可以直接提供一个 API 接口，只对 AI Agent 开放。如果有人通过 API 查询，机票价格就加价 10%，但可以访问他们所有的航班信息，随便预订。

Nathan ：这样就搞定了。

Dylan

Lex Fridman 五小时聊 DeepSeek：一文看懂 DeepSeek 的创新与2025 AI 趋势

正文

01

DeepSeek-R1 是目前最「开源」

的开源模型之一

02

DeepSeek-V3

和 DeepSeek-R1 的区别

03

R1 的 Aha Moment

04 (adsbygoogle = window.adsbygoogle || []).push({});

DeepSeek 是如何实现低成本训练的？

05

模型训练就是一把 All in

06

出口管制的真正影响

是降低了 AI 应用的普及速度

07

模型的对齐是如何实现的？

08

预训练的重要性

将会被强化学习所取代

09

o3、R1 和 Gemini 的对比

10

英伟达的「杰文斯悖论」

11

谷歌的 TPU 很强，

但只是自用

12

蒸馏是业界惯例，

大家都这么做

13

对话式 AI 的广告是个新金矿

14

AI Agent 的难题是成功率问题

请到「今天看啥」查看全文

04