专栏名称: AI前线

InfoQ十年沉淀，为千万技术人打造的专属AI公众号。追踪技术新趋势，跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。

观点博弈：我们还应该期待AGI吗？

AI前线 · 公众号 · AI · 2025-02-06 13:12

正文

作者 | DWARKESH PATEL

译者 | 刘雅梦

策划 | 褚杏娟

如果我们能够继续扩大大型语言模型（LLMs++）的规模（并因此获得更好、更通用的性能），那么有理由期待到 2040 年（或更早）出现强大的人工智能（AI），它能够实现大多数认知劳动的自动化，并加速进一步的 AI 进展。然而，如果规模扩大不起作用，那么通往 AGI 的道路似乎会更长、更难走，原因我在文章中有解释。

为了深入思考关于规模化正反两方面的论据，我虚构了两个角色——坚信者和质疑者，基于他们之间的辩论写了这篇文章。

我们会耗尽数据吗？

质疑者：

即使严肃对待那些唾手可得的规模化扩展曲线，也意味着我们需要 1e35 次浮点运算（FLOPs）来构建一个足够可靠且智能的 AI，以撰写一篇科学论文（这是 AI 需要具备的能力的基本要求，以便在规模化变得不可行之后，自动推进进一步的 AI 研究还能继续前进） ^【1】。这意味着我们需要的数据需比我们现在拥有的要多 5 个数量级（orders of magnitude，OOM） ^【2】。

我担心的是，当人们听到“差了 5 个数量级”时，他们的理解是，“哦，我们的数据量只比我们需要的少了 5 倍——我们只需要在数据效率上取得几次 2 倍的提升，我们就成功了”。毕竟，朋友之间差几个数量级算什么呢？

不，差了 5 个数量级意味着我们的数据量比我们需要的少了 10 万倍。的确，我们会得到数据效率更高的算法。多模态训练将会为我们提供更多的数据，此外，我们可以在多个周期中回收令牌（token）并使用课程学习。但是，即使我们假设这些技术可能会带来最慷慨的一次性改进，它们也不会为我们提供指数级的数据增长，以跟上这些扩展法则（Scaling Laws）所要求的计算能力指数级增长。

然后人们说，我们会以某种方式让自我对弈 / 合成数据（self-play/synthetic data）发挥作用。但自我对弈存在两个非常棘手的挑战：

评估： 自我对弈在 AlphaGo 中很有效，因为该模型可以根据具体的获胜条件来判断自己（“我赢了这局围棋吗？”）。但新颖的推理并不具备具体的获胜条件。因此，正如你所预料的那样，大型语言模型（LLMs）到今天还无法纠正自己的推理错误。
计算：所有这些数学 / 编码方法都倾向于使用各种类型的树搜索，即你需要在每个节点上反复运行 LLM。对于围棋获胜这个相对有限的任务来说，AlphaGo 所需的计算预算是惊人的——现在想象一下，你需要在所有可能的人类思维空间中搜索，而不是在围棋的走法空间中搜索。为了让自我对弈工作所需的所有额外计算，加上已经需要用来扩展参数本身的惊人计算增加（计算量 = 参数 * 数据）。使用人类思维水平的 1e35 次浮点运算来估计，我们需要在目前最大的模型基础上增加 9 个数量级（OOMs）的计算量。当然，你可以从更好的硬件和更好的算法中获得改进，但你真的能得到完全等同于 9 个数量级的改善吗？

坚信者：

如果你对规模效应起作用的主要反对意见仅仅是数据的缺乏，你的直觉反应不应该是，“看起来我们本可以通过扩大 Transformer++ 的规模来创造出 AGI，但我猜我们会先耗尽数据。”

你的反应应该是，“天哪，如果互联网更大，只需用几百行 Python 代码就能编写出一个基本结构的模型，通过扩大规模居然能够创造出一个具有人类水平智能的思维。这是世界上的一个疯狂事实，即让大量的计算变得智能竟然如此容易。”

LLM“效率低下”的例子大多只是一些无关紧要的电子商务垃圾内容 ^【3】。我们通过在下一个 token 预测上训练它们来加剧这种无能——这种损失函数与我们希望智能代理在经济中完成的实际任务几乎无关。尽管我们实际想要的能力与我们训练这些模型所用的糟糕损失函数和数据之间的交集微乎其微，但我们只要把微软年收入的 00.03% 投入对互联网的大规模抓取中，就可以产生一个婴儿级的通用人工智能（baby-AGI），也就是所谓的 GPT-4。

因此，考虑到目前为止 AI 的进展都是这么简单易行，如果合成数据也能发挥作用，我们也不应该感到惊讶了。毕竟，“模型只是想要学习”。

GPT-4 已经发布 8 个月了。其他人工智能实验室也只是刚刚得到了他们自己的 GPT-4 级模型。这意味着所有的研究人员现在才开始尝试让自我对弈与当前代的模型一起工作（看起来他们中的一个可能已经成功了）。因此，到目前为止，我们还没有公开证据表明合成数据能够在大规模上发挥作用，但这并不意味着它不能成功。

毕竟，当你的基础模型足够强大，至少有时候能够得出正确答案时，强化学习（RL）就会变得更加可行（现在你可以奖励模型在完成一连串的思考过程所需的 1/100 次，例如进行一次扩展的数学证明，或编写完成一个完整拉取请求（pull request）所需的 500 行代码）。很快你的 1/100 成功率就会变成 10/100，然后是 90/100。现在你尝试 1000 行代码的拉取请求，模型不仅有时会成功，而且它还能在失败时进行自我批评。依此类推......。

事实上，这种合成数据的自举（bootstrapping）过程似乎与人类进化几乎直接类似。我们的灵长类祖先几乎没有证据表明他们能够快速辨别和应用新的洞察力。但是，一旦人类发展出了语言，就有了这种类似于 LLM 的合成数据 / 自我对弈循环的基因 / 文化共同进化过程，在这种循环中，模型变得更加智能，以便更好地理解相似副本的复杂符号输出。

自我对弈并不要求模型能够完美地判断自己的推理过程。它们只需在评估推理时比从零开始做推理要好即可，这显然已经是事实了——比如看看宪法人工智能（Constitutional AI），或者仅仅与 GPT 交互几分钟，你就能注意到它似乎更擅长解释为什么你写的是错误的，而不是自己独立得出正确的答案） ^【4】。

几乎所有与我交谈过的大型人工智能实验室的研究人员都非常有信心，他们都非常确信他们能够让自我对弈发挥作用。当我问他们为什么这么确定时，他们停顿了一下，好像急于解释自己的所有想法。但随后他们想起了保密的重要，于是说：“我不能告诉你具体的细节，但就我们可以在这里尝试的东西而言，有很多唾手可得的成果。”或者，正如 Dario Amodei（Anthropic 首席执行官）在播客中告诉我的那样：

Dwarkesh Patel：你提到数据可能不是约束条件。你为什么会这样认为?

Dario Amodei ：这里有多种可能性，出于某些原因，我不能深入讨论细节，但是世界上有很多数据源，并且生成数据的方法也有很多。我猜这不会是一个障碍。也许如果它是一个障碍会更好，但它不会成为障碍。

质疑者：

宪法人工智能（Constitutional AI）、强化学习人类反馈（RLHF）以及其他强化学习 / 自我对弈（RL/self-play）设置擅长发挥潜在能力（或在能力不佳时加以抑制）。但是目前还没有人能证明有一种方法可以通过强化学习（RL）来实际提高模型的底层能力。

如果某种自我对弈 / 合成数据的方法行不通，你就彻底完蛋了——没有其他方法可以绕过数据瓶颈。新的架构极不可能提供解决方案。您需要一个比 LSTM 到 Transformer 时代更大的样本效率提升。LSTM 早在 90 年代就被发明出来了。因此，你需要的飞跃比我们在过去 20 多年里所经历的要大的多，当时深度学习中所有唾手可得的成果都是最容易实现的。

你从那些对 LLM 规模化持有情感或经济利益的人那里得到的共鸣，并不能取代我们目前完全缺乏证据的现状，即证明强化学习（RL）能够解决数据上存在的多个数量级（OOM）短缺的问题。

此外，LLM 似乎需要如此惊人的大量数据才能得出如此平庸的推理能力，这一事实表明它们根本没有实现泛化。如果这些模型不能用人类在 2 万年内内能接触到的数据量接近人类水平的表现，我们应该考虑到即使是 20 亿年的数据量也可能是不够的。你不能通过给飞机加更多的喷气燃料使其到达月球。

到目前为止，

扩大规模真的有效吗？

坚信者：

在性能基准测试上，性能已经持续提升了 8 个数量级。在计算量增加百万倍的情况下，模型性能的损失已经精确到小数点后许多位了。

在 GPT-4 技术报告中，它们表示，它们能够“根据使用相同方法训练的模型，但使用的计算量最多比 GPT-4 少 1 万倍”来预测最终 GPT-4 模型的性能。

我们应该假设，在过去的 8 个数量级（OOM）中如此一贯有效的趋势，在接下来的 8 个数量级中也将是可靠的。通过进一步扩大 8 个数量级的规模获（或者考虑到从算法和硬件进步中获得的免费性能提升，相当于性能上的 8 个数量级扩大）所能达到的性能，可能会产生足以加速人工智能研究的模型。

质疑者：

但当然，我们实际上并不直接关心下一个词（token）预测的性能。在这个损失函数上，模型已经超越了人类。我们想弄清楚这些在下一个 token 预测上的规模扩展曲线，是否真的与通用性的真正进步相对应。

坚信者：

随着这些模型规模的扩大，它们在广泛的任务上的性能会得到持续且可靠地提升，这一点通过 MMLU、BIG-bench 和 HumanEval 等基准测试得到了衡量。

质疑者：

但是你真的尝试过随机查看一些 MMLU 和 BigBench 问题吗？它们几乎都只是谷歌搜索的首选命中结果。这些都是对记忆力的良好测试，而不是对智力的测试。以下是我从 MMLU 随机挑选的一些问题（记住，这些是多项选择题，模型只需从 4 个选项中选择正确的答案即可）：

问：根据贝尔的理论，评估一种行为在道德上是否被允许的第二步是找出

答：禁止它的道德规则是否是真正的道德规则。

问：对于自发过程，以下哪一项始终是正确的？

答：系统加上周围环境的总熵增加。

问：比尔·克林顿出生时，美国总统是谁？

答：哈里·杜鲁门

一个模型经过互联网文本的训练，充满了各种随机事实，它恰好记住了许多随机事实，这有什么值得称赞的吗？为什么这能在某种程度上表明了智力或创造力？

即便是在这些人为设计且相互独立的基准测试上，性能似乎也已经达到了平台期。据估计，谷歌新推出的 Gemini Ultra 模型的计算量比 GPT-4 多处了近 5 倍。但在 MMLU、BIG-bench 和其他标准基准测试上，它的性能几乎与 GPT-4 相当。

在任何情况下，常用的基准根本不能衡量长期任务的表现（比如你能在一个月的时间内完成一项工作吗），在这方面，基于下一个词（token）预测训练的 LLM 几乎没有有效的数据点可供学习。事实上，正如我们在 SWE-bench 上看到的那样（这一测试衡量 LLM 是否能够自主完成拉取请求），它们在整合长期复杂信息方面表现得非常糟糕。GPT-4 的得分仅为 1.7%，而 Claude 2 的得分稍高一些，为 4.8%。

我们似乎有两种类型的基准测试：

一种是测量记忆、回忆和插值的模型（MMLU、BIG-bench、HumanEval），这些模型似乎已经达到甚至超过了普通人的水平。这些测试显然不能很好地代表智力，因为即使是规模极大主义者也不得不承认，目前模型比人类笨得多。
另一种是能真正衡量自主解决长时间跨度或困难抽象问题能力的模型（SWE-bench、ARC），这些模式甚至还没有开始运行。

当一个模型在经过了相当于 2 万年人类输入量的训练后，仍然不明白如果 Tom Cruise 的母亲是 Mary Lee Pfeiffer，那么 Mary Lee Pfeiffer 的儿子就是 Tom Cruise？或者其答案极其依赖于问题的提问方式和顺序？对于这个模型，我们应该如何评价呢？

因此，我们现在甚至不值得去问规模扩大是否会继续有效——我们甚至似乎没有证据表明到目前为止规模扩大是有效的。

坚信者：

Gemini 似乎是一个奇怪的地方，让人预期会有一个高原期。GPT-4 显然突破了质疑者对联结主义和深度学习的所有预注册批评 ^【5】。对 Gemini 与 GPT-4 性能的更合理解释仅仅是谷歌还没有完全赶上 OpenAI 的算法进展。

如果深度学习和 LLM 存在一些基本的硬性上限，那么我们难道不应该在它们开始发展常识、早期推理和跨抽象思考的能力之前就看到这一点吗？有什么直观的理由预期在一般推理和高级推理之间存在一些顽固的限制呢？

考虑一下 GPT-4 比 GPT-3 好了多少。这只是放大了 100 倍的规模。这听起来好像有很多，但当你考虑到这比我们可以在这些模型上进行的额外规模扩大要小得多时，就不那么惊人了。在我们触及到世界 GDP 的 1% 之前，我们负担得起 GPT-4 进一步扩大 10000 倍的规模（即 GPT-6 水平）。而且这还是在我们没有考虑预训练计算效率提升（Mixture-of-Experts、Flash Attention）、新的训练后置方法（RLAI、思维链微调、自我对弈等）以及硬件改进之前。其中每因素都将单独为性能贡献与多个数量级的原始规模扩大所能达到的一样多效果（它们过去一直这样做）。将所有这些因素加在一起，你可能可以将 GDP 的 1% 转化成 GPT-8 水平的模型。

对于社会愿意在新的通用技术上投资多少的背景来说：

英国铁路投资在 1847 年达到顶峰时，占 GDP 的比例达到了惊人的 7%。
“在 1996 年电信法（Telecommunications Act）生效后的五年里，电信公司在铺设光纤电缆、增加新交换机和建设无线网络方面投资了 5000 多亿美元（按今天的价值计算，几乎接近一万亿美元）。”

有可能 GPT-8（也就是一个性能放大了 1 亿倍的 GPT-4 模型）只会比 GPT-4 稍微好一点，但我不明白为什么你会期待这种情况，因为我们已经看到模型能够通过更小的规模来理解如何思考以及世界是什么样子。

那接下来的故事你就知道了——数以百万计的 GPT-8 副本编码内核的改进，找到更好的超参，为微调提供大量高质量反馈等等。这使得开发 GPT-9 变得更便宜、更容易……把这个过程外推到奇点。

模型理解这个世界吗?

坚信者：

这是微软研究院在其 Sparks of AGI 论文中发现的众多令人震惊的发现之一。它们发现，GPT-4 可以编写 LaTex 代码来绘制一只独角兽。我们已经习惯了这样的事情，以至于我们不会停下来思考这些例子说明了什么问题。据推测，LaTex 中的动物图画并不是 GPT-4 训练语料库的一部分。然而，GPT-4 已经发展出了一个内在的表征，理解了独角兽的模样，并且能够利用其对 LaTex 编程的熟练技能来描绘它仅在语言形式中遇到的概念。我们看到 GPT-4 做了一些如果没有世界模型显然无法做到的事情（如果它不理解独角兽的样子，它怎么能弄清楚如何在 LaTex 中描绘一只独角兽呢） ^【6】。

为了预测下一个词（token），LLM 必须自学世界上所有的规律性，这些规律性能导致一个词拼接另一个词。为了预测《自私的基因》（Selfish Gene）一书中一段文字的下一段，需要理解以基因为中心的进化论观点，为了预测一部新短篇小说中的下一章节，需要理解人类角色的心理，等等。

如果你对 LLM 进行代码训练，它会在语言推理方面变得更好。现在，这确实是一个非常令人震惊的事实。这告诉我们，该模型已经从阅读大量代码中提取出了一些深层次的关于如何思考的通用理解能力——不仅表明语言和代码之间存在一些共享的逻辑结构，而且无监督的梯度下降可以提取这种结构，并利用它来更好地进行推理。

梯度下降试图找到最有效的数据压缩方法。最有效的压缩也是最深刻、最强大的。对物理教科书最有效的压缩——那种可以帮助你预测书中被截断的论证可能会如何继续的压缩——就是对底层科学解释的深刻内化理解。

质疑者：

智能涉及（除其他外）压缩的能力。但压缩本身并不代表智能。爱因斯坦之所以聪明，是因为他能提出相对论，但在我看来，爱因斯坦 + 相对论并不是一个更有意义的智能系统。说柏拉图与我 + 我的知识相比是个白痴没有意义，因为他没有我们现代人对生物学或物理学的理解。

因此，如果 LLM 只是由另一个过程（随机梯度下降）制作的压缩，那么我不知道为什么这会告诉我们有关 LLM 自身制作压缩的能力（因此，为什么这能告诉我们关于 LLM 的智能的任何信息） ^【7】。

坚信者：

为什么规模化必须持续发挥作用并不需要一个无懈可击的理论解释。我们对热力学的完整理解是在蒸汽机发明后的一个世纪才发展起来的。在技术发展的历史中，通常的模式是发明先于理论，我们应该预期智能也是如此。

并没有某条物理定律表明摩尔定律必须继续下去。事实上，总是有新的实际障碍暗示着摩尔定律的终结。然而，每隔几年，台积电（TSMC）、英特尔（Intel）、AMD 等公司的研究人员就会想出解决这些问题的办法，并为这一持续了数十年的趋势注入了额外的生命力。

你可以在计算和数据瓶颈、智能的真实本质和基准测试的脆弱性等问题上做尽心理上的思维体操。或者你可以直接看看那条该死的趋势线。

结论

别再扮演其他人格了。这是我的个人看法。

如果在过去的几年里你一直是一个规模化的坚信者，我们所见到的进步就会显得更加合理。你可以讲述一个故事，该故事是关于怎样用某种成语库或查找表来解释 GPT-4 惊人的表现可能永远不会泛化的。但这是一个没有任何怀疑者预注册过的故事。

举个例子，我要为质疑者提供的一个论据是，LLM 还没有建立起新的联系，这些联系能够导致新的发现。如果一个愚蠢的人能像 LLM 一样记住很多东西，他们就能做到这一点。老实说，我认为这是最令人信服的质疑点之一，其他许多人也有同样的看法。然而就在几天前，谷歌宣布其 FunSearch 设置有了新的数学发现 ^【8】。如果你是一个质疑者，你很可能已经一次又一次的经历过这些了。

至于那些坚信者，像 Ilya、Dario、Gwern 等人早在 12 年前或多或少地阐明了我们因规模化而导致的缓慢起飞。

看起来相当明显，一定程度的规模化可以让我们实现变革性的人工智能——也就是说，如果你在这些规模化曲线上实现了不可约减的损失，那么你就制造出了一种足够聪明的人工智能，可以自动化大多数认知劳动（包括制造更聪明的人工智能所需的劳动）。

但生活中的大多数事情实际上都比理论上要困难得多，而且许多理论上可行的事情也会因为这样或那样原因（核聚变、飞行汽车、纳米技术等）而变得难以解决。如果自我对弈 / 合成数据不起作用，模型看起来就麻烦了——你永远也无法接近柏拉图式的不可约减的损失。此外，预期规模化能继续发挥作用的理论依据尚不明确，而且规模化似乎能带来更好性能的基准的普遍性也存在争议。

我暂定的概率是 70%：规模化 + 算法进步 + 硬件进步，将使我们能在 2040 年实现人工通用智能（AGI）。30%：质疑者是对的——LLM 和任何大致类似的东西都完蛋了。

我可能错过了一些关键的证据——人工智能实验室根本没有发布那么多的研究成果，因为任何关于“人工智能科学”的见解都会泄露与构建 AGI 相关的想法。我的一个朋友是其中一个实验室的研究员，他告诉我，他很怀念大学时写一堆论文的习惯——如今，没有什么值得一读的文章发表了。出于这个原因，我认为我不知道的事情也会缩短我的预测时间。

附录

以下是一些额外的注意事项。我觉得我对这些主题的理解还不够充分，无法完全理解它们对规模化意味着什么。

模型会获得基于洞察力的学习吗？

在更大的规模上，模型将自然而然地发展出更高效的元学习方法——只有当你拥有一个大型的过参数化模型，并且超过了训练它在数据上严重过度拟合的点时，才会发生理解（grokking）现象。理解（grokking）似乎与我们的学习方式非常相似。我们有如何对新信息进行分类的直觉和心智模型。随着时间的推移及新的观察，这些心智模型本身也会发生变化。在如此多样化的数据上进行梯度下降将选择最通用和最能外推的电路。因此，我们得到了理解（grokking）——最终我们将获得基于洞察力的学习。

质疑者：

神经网络也拥有理解（grokking）能力，但它比人类实际整合新的解释性洞察的效率要低几个数量级。如果你告诉一个孩子太阳是太阳系的中心，这会立即改变他对夜空的理解。但你不能只把一本哥白尼的书输入到一个未经任何天文学训练的模型中，然后让它立即将这种洞察纳入到未来的所有相关输出中。奇怪的是，模型必须在如此多的不同上下文下中多次听到信息才能“理解”（grok）出潜在的概念。

不仅模型从未展示过洞察力学习，而且考虑到我们用梯度下降训练神经网络的方式，我不明白这种学习是如何成为可能的——我们对每个例子都进行了一系列非常微妙的微调，希望足够多的微调能慢慢地将它们推向正确的山顶。基于洞察力的学习需要立即从海平面拖拽到珠穆朗玛峰的顶峰。

灵长类动物的进化是否提供了规模化的证据？

支持者：

我敢肯定，你可以在黑猩猩的认知中发现各种令人尴尬的脆弱性，这些脆弱性远比逆转诅咒更可怕。这并不意味着灵长类动物的大脑存在一些无法通过增加 3 倍规模加上一些微调来修复的基本限制。

事实上，正如 Suzana Herculano Houzel 所展示的那样，人类大脑的神经元数量与和人类大脑质量相当的灵长类动物大脑所拥有的神经元数量一样多。啮齿动物和食虫动物的大脑具有更糟糕的 Scaling 法则——在这些目中，大脑相对较大的物种的神经元比你根据它们大脑质量预期的要少得多。

这表明，与其他物种的大脑相比，有些灵长类动物的神经架构在可扩展性方面确实更为出色，类似于 Transformers 比长短期记忆网络（LSTM）和递归神经网络（RNN）具有更好的扩展曲线。进化论在设计灵长类动物大脑时吸取了（或者至少偶然发现了）这个惨痛的教训，并且灵长类动物竞争的利基环境极大地奖励了智力的边际增长（你必须理解所有这些来自你的双眼视觉、能使用对立拇指工具的手、以及其他能与你交流的聪明猴子的数据）。

观点博弈：我们还应该期待AGI吗？

正文

请到「今天看啥」查看全文