专栏名称: 知识分子

《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台，致力于关注科学、人文、思想。我们将兼容并包，时刻为渴望知识、独立思考的人努力，共享人类知识、共析现代思想、共建智趣中国。欢迎关注。

朱松纯：大模型为什么不是AGI？

知识分子 · 公众号 · 科学 · 2025-03-04 09:20

正文

3.4 ‍

知识分子

The Intellectual

图源：pixabay

编者按

今年年初，国产大模型DeepSeek凭借低成本和优秀的推理能力震动了业界，但对普通人来说，恐怕给人更深刻的是它犀利的语言风格。看惯了GPT-4百科式精准而波澜不惊的语言风格，DeepSeek的嬉笑怒骂让人亲切得多，甚至有时会让人觉得恍惚。AI似乎早已跃出了我们对工具的固有认知，我们对话的，是不是已经是一个具有智能的硅基生命？

在新书《为机器立心》中，北京通用人工智能研究院院长、北京大学智能学院院长、北京大学人工智能研究院院长、清华大学基础科学讲席教授朱松纯就为我们讲述了和AI的“相处之道”，我们应该如何和AI共生，又如何让AI理解人类的善与美。

本书是朱松纯教授对通用人工智能的深刻思考与实践总结，解答了什么是通用人工智能、如何认清智能的本质、如何为人工智能找到统一理论与认知架构，进而为机器立“心”等重要问题。旨在为AI赋予“心”与“魂”，开启智能时代的“中国时刻”。

书中不仅直面当下AI的迷思——如“ChatGPT是否只是‘缸中之脑’”“如何超越‘鹦鹉学舌’式的智能”，还提出了独到的“1238”路线图：一个统一框架、两大系统完备性、三项基本特征、八大关键问题，为通用人工智能的研究提供了系统性思路。书中还介绍了四大研究成果：通用智能体“通通”、大任务仿真平台“通界”、评级标准“通智测试”、科研平台“通境”，并探讨了AI与产业结合的可能性。

以下内容出自该书第一章。朱松纯指出，我们对于大模型的能力仍然存在高估，更关键的是，大模型的虽然出色，但仍然是缸中之脑，不具备真正的智能。若AI无法建立符号与实在的实质性联结，它的“智能”可能终将困于语言的镜厅之中。

撰文 | 朱松纯

大模型与缸中之脑

缸中之脑是由哲学家希拉里·帕特南（Hilary Putnam）提出的一个著名思想实验。如图 1-1 所示，该实验假设将人的大脑与身体剥离，大脑被放入一个能够维持其机能的盛有营养液的容器中，一台联结大脑神经元的超级计算机负责制造出各种幻象，让大脑误以为一切仍保持正常，就像《黑客帝国》所演绎的那样。那么，人类该怎么知道自己不是 “缸中之脑”呢？

图1-1 "缸中之脑"

基于语义学的分析，帕特南指出，当处于缸中大脑状态的人声称自己是“缸中之脑”时，“缸”和“脑”的所指已经发生了变化。如何理解这一观点呢？

举个简单的例子：假设存在一个孪生地球，其居民的生活方式、语言均与人类相同，但他们的水分子构成为 XYZ，而不是 H2O。两种“水”在外观、用途和名称上并无差异，且两地居民对“水”的心理感知相同，但它们指向的实质却不同，因此其含义也应有所区别。这也启示研究者要从符号落地（symbol grounding）的视角看待大模型 [1] 。

我们研究团队的成员前段时间发表了一篇论文：Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models (《缸中之脑：关于大语言模型建立的通用人工智能的一些缺失》) 。该论文指出大模型无异于“缸中之脑”，因为大模型本身并不存在于真实世界中，无法像人一样实现从“词语（word） ”到“世界（world） ”的联结。

这一点是由它的内在构造机制所决定的，即通过统计建模在大量文本上进行训练，学习文本之间的语言学相关关系，从而根据上一个词语预测下一个词语。缺乏符号落地使得大模型很容易陷入无限循环，如图 1-2 所示，用户启动了一个话题，让两个 GPT-4 进行对话，它们在只进行一轮对话后，就开始对彼此表示感谢，并且无限重复“感谢”。这与符号落地理论相呼应，即当不能建立从词语到世界的联结时，对话将进入无限循环。

图 1-2 两个 GPT-4 无限循环的对话

大模型的智能与其说是内在的，不如说是人类智能的投影。大模型生成的文本本身并不具有意义，其意义完全取决于人类用户对文本的阐释。美国语言学家诺姆·乔姆斯基（Noam Chomsky）曾经尝试挑战语言学界，构造了一个符合语法规范但无意义的句子：无色的绿思狂暴地沉睡（Colorless green ideas sleep furiously）。中国语言学之父赵元任在《从胡说中寻找意义》一文中，以一种充满哲思的方式阐释了这个句子：

我有一个朋友，总是充满各种想法，好的和坏的，精致的和粗糙的，陈旧的和新颖的。在付诸实践之前，他通常会把新的想法放在心里，让它们成熟和发酵。然而，当他匆忙时，有时会在想法完全成熟之前就付诸实践，换句话说，当它们还很 “生”的时候。他的一些“生绿”想法非常生动且丰富多彩，但并非总是如此，有些则相当朴素和无色。当他想起一些无色的想法仍然太不成熟，以至于无法使用时，他会再次考虑，或者让它们“睡觉”，正如他所说的那样。但是，其中一些想法可能彼此冲突和矛盾，当它们在同一晚上一起“睡觉”时，它们会爆发激烈的争斗，将整个夜晚变成一场噩梦。因此，我的朋友经常抱怨说，他那些无色的“生绿”想法睡得很狂暴。

这段充满哲思的阐释让我们深刻理解到，文字本身并不携带固有的意义，而是人类赋予了它们意义。这种意义既可以是字词本身的含义，也可以是结合了现实生活体验，从而超越单个字词而在语境中创造出来的新的含义。因此，意义的前提是符号落地。

现在的大模型更多的是在纯符号空间中进行符号组合，即使它们生成了诸如“我爱你”这样的语句，也不过是另一种形式的“缸中之脑”。这种表达缺乏对人类真实生活体验的深刻理解，因此与我们所认同和期待的“我爱你”有着本质的不同。

是真的掌握了概念，

还是仅仅形成了“隐藏记忆”

大模型训练数据集的不透明性，以及人类评估时所采取的指标差异，可能导致人类高估了大模型的真实性能。

大模型通常利用庞大且容易获取的互联网数据进行训练，而训练数据中可能包括了用于后续评估的数据集。由于我们目前无法确切了解 GPT-4 等大模型训练数据集的构成，“泛化”这一概念变得模糊不清。我们难以判断这些模型是真的掌握了核心概念，还是仅仅在从训练过程中形成的“隐藏记忆”中进行检索。这种不透明性阻碍了学术界对这些模型进行公正和可靠的评估。

图 1-3 显示的是一道连掌握加减进位运算的小学生都能正确解答的数学题，但是 GPT-4 大模型却算错了。这说明大模型没有掌握哪怕最简单的加减法运算规则。

图 1-3 GPT-4 大模型出现的计算错误

图 1-4 显示的是 GPT-4 大模型未经事实验证，就胡乱编造地生成 “林黛玉倒拔垂杨柳”的事实性错误内容。这说明大模型虽然通过海量文本数据分别学到了“林黛玉在大观园”和“鲁智深倒拔垂杨柳”的内容，但是本质上并不具备事实判断的能力。它所表现出的乃是一种“知识幻象”。

图 1-5 显示的是 GPT-4 大模型编造的宋江、吴用、花荣“桃园三结义”的故事。这同样说明了大模型本质上不具备事实判断的能力，而只表现出一种“知识幻象”。

图 1-4 GPT-4 大模型杜撰的“林黛玉倒拔垂杨柳”

图1-5　GPT-4 大模型自行更换了“桃园三结义”中的人物

图1-6 显示的是当输入“马骑着宇航员”的英文“A horse is ridingan astronaut”时，某文生图大模型生成的结果。生成的图像是宇航员骑着马，而不是马骑着宇航员。这表明该模型在理解自然语言的字面含义方面存在局限，并不能准确地解析和生成与输入语句含义相符的图像。

图1-6　某文生图大模型生成的错误图像

此外，大模型的一个重要问题是尝试将本身不属于语言范畴的问题转化为语言问题。然而，在这一转化下，本身不使用语言而使用计算模型的问题自然变得漏洞百出。比如，经过统计，在处理一个小学难度的数据集时，即使是采用了多步迭代策略的大模型，其正确率也难以超过 50%。大模型在处理数据集时的正确率见表 1-1。

在传统逻辑推理任务中，大模型的准确度往往依赖于语言的清晰度和具体性。一旦我们将原本具有明确语义的词汇替换为抽象的符号，大模型的推理能力就会急剧下降。

大模型做不好抽象推理，在那些仅依赖于从几个小样本中找到潜在规律的任务中，大模型的表现较为一般。如图1-7 所示，在以英国学者约翰·C. 瑞文（John C. Raven）命名的瑞文标准推理测验中，测试者需要根据已有的8 个图形的形状、数量、大小等，寻找隐含的规律，然后推理出最后一个图形。大模型在瑞文标准推理测验中的表现较差。

图1-7　瑞文标准推理测验中的图形推理问题

大模型在创造力方面的表现也远远不如人类，甚至在某些方面达不到儿童的水平。最近，研究人员提出一种创造力测试方法，灵感源于欧美广受欢迎的电视节目中的游戏环节。这项测试要求参与者对一组单词进行分类，并说明其分类的逻辑依据。实验结果显示，与人类参与者相比，大模型在解决此类问题时遇到了显著的困难。

大模型虽然在某些方面表现出色，但它们并不具备真正的“智能”，更像是一种新型的“数据库”。在实际应用中，大模型最常面临的问题之一是所谓的“幻觉”现象。这些模型在海量文本数据上进行训练，因此在回答问题时，它们往往会搜索所有训练数据，寻找与问题在统计意义上相似的内容来回答。然而，这种回答仅仅基于问题和数据之间的 “相似性”，并不是真正的“相关性”。

数据价值趋于饱和，学术界普遍认为大模型不是通用人工智能。OpenAI 的首席执行官山姆·奥尔特曼（Sam Altman）曾公开表示，目前大模型所使用的数据量已经接近公开可获取数据的极限，盲目提升规模并不会带来可预见的突破。

数据是大模型训练中的关键要素。在微软的加持下，OpenAI 得以利用先进的搜索技术，其训练数据集已经非常广泛，几乎涵盖了互联网上所有可公开访问的信息，数据的价值几乎已经被耗尽。

GPT-4 在很大程度上代表了在当前数据集规模下所能达到的性能极限。在这种情况下，单纯增加数据量或模型规模，将难以在人工智能领域再次实现质的飞跃。

为什么大模型不是AGI

在图灵奖得主杨立昆（Yann LeCun）看来，大模型研究是在走人工智能的下坡道。现有的研究缺乏对于认知推理模型的构建，而单纯的数据驱动无法达成人类级别的智能。杨立昆同时表示，ChatGPT 缺乏创新，没什么革命性，ChatGPT 推出的 GPT-3.5 模型在很多方面综合了这些年来多方所开发的多种技术。

加州大学伯克利分校认知心理学教授艾利森·戈尔尼克（Alison Gopnik）在近期的文章中指出，大模型是一种模仿机器，缺乏认知推理所需的创造力。许多婴儿都能完成的任务，大模型至今无法完成。

首先，大模型语言空间无法覆盖所有智能任务。由于大模型对于符号数据的依赖性，其性能仅表达符号层面的“知”，却无法完成操作层面的“行”，不满足对于通用智能体“知行合一”的要求。

现实生活中存在大量符号数据难以表达的任务，比如，炒菜的时候如何把握火候、驾驶的时候如何控制方向等。这一类任务无法利用符号化的文字进行表达，也无法利用大模型进行学习。同时，大模型由于没有“行”，没有动机、目标，也没有操作的具身空间，完全无法像人类一样，在一个实体空间中进行主动探索、发现知识和积累知识。这使得大模型只能被动获取内容，而无法主动掌握技能。

麦克阿瑟“天才奖”得主、华盛顿大学教授、美国阿兰图灵研究中心研究员叶因·蔡（Yejin Choi）在 TED 大会上公开表示，大模型缺乏常识概念，不具备人类主动探索的能力。

其次，大模型具有虚假涌现及不可控的特性。斯坦福大学的研究者们最近发现，大模型所谓的涌现能力并非真实存在，而是衡量标准的结果。他们采用了非线性衡量标准，如采用指数标准 xn。随着 x 的线性增长，模型的表现似乎呈现出指数爆炸式的涌现现象。然而，如果采用线性衡量标准，大模型的表现仅呈现线性增长，不存在性能提升越来越快的情况，更不存在量变到质变的可能。

朱松纯：大模型为什么不是AGI？

正文

请到「今天看啥」查看全文