专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  【CVPR2025】GEN3C:基于3D信息 ... ·  17 小时前  
数据派THU  ·  一文通透DeepSeek ... ·  昨天  
大数据文摘  ·  重磅论文!何恺明、Yann ... ·  2 天前  
软件定义世界(SDX)  ·  从理论到实践:RAG、Agent、微调等6种 ... ·  5 天前  
数据派THU  ·  MOIRAI-MOE: ... ·  5 天前  
51好读  ›  专栏  ›  数据派THU

朱松纯:大模型为什么不是AGI?

数据派THU  · 公众号  · 大数据  · 2025-03-15 17:54

正文

图片
:知识分子
本文约5000字,建议阅读10分钟
大模型为什么不是AGI?

图片

图源:pixabay


编者按


今年年初,国产大模型DeepSeek凭借低成本和优秀的推理能力震动了业界,但对普通人来说,恐怕给人更深刻的是它犀利的语言风格。看惯了GPT-4百科式精准而波澜不惊的语言风格,DeepSeek的嬉笑怒骂让人亲切得多,甚至有时会让人觉得恍惚。AI似乎早已跃出了我们对工具的固有认知,我们对话的,是不是已经是一个具有智能的硅基生命?


在新书《为机器立心》中,北京通用人工智能研究院院长、北京大学智能学院院长、北京大学人工智能研究院院长、清华大学基础科学讲席教授朱松纯就为我们讲述了和AI的“相处之道”,我们应该如何和AI共生,又如何让AI理解人类的善与美。


本书是朱松纯教授对通用人工智能的深刻思考与实践总结,解答了什么是通用人工智能、如何认清智能的本质、如何为人工智能找到统一理论与认知架构,进而为机器立“心”等重要问题。旨在为AI赋予“心”与“魂”,开启智能时代的“中国时刻”。


书中不仅直面当下AI的迷思——如“ChatGPT是否只是‘缸中之脑’”“如何超越‘鹦鹉学舌’式的智能”,还提出了独到的“1238”路线图:一个统一框架、两大系统完备性、三项基本特征、八大关键问题,为通用人工智能的研究提供了系统性思路。书中还介绍了四大研究成果:通用智能体“通通”、大任务仿真平台“通界”、评级标准“通智测试”、科研平台“通境”,并探讨了AI与产业结合的可能性。


以下内容出自该书第一章。朱松纯指出,我们对于大模型的能力仍然存在高估,更关键的是,大模型的虽然出色,但仍然是缸中之脑,不具备真正的智能。若AI无法建立符号与实在的实质性联结,它的“智能”可能终将困于语言的镜厅之中。

01 大模型与缸中之脑

缸中之脑是由哲学家希拉里·帕特南(Hilary Putnam)提出的一个著名思想实验。如图 1-1 所示,该实验假设将人的大脑与身体剥离,大脑被放入一个能够维持其机能的盛有营养液的容器中,一台联结大脑神经元的超级计算机负责制造出各种幻象,让大脑误以为一切仍保持正常,就像《黑客帝国》所演绎的那样。那么,人类该怎么知道自己不是 “缸中之脑”呢?

图片
图1-1 "缸中之脑"


基于语义学的分析,帕特南指出,当处于缸中大脑状态的人声称自己是“缸中之脑”时,“缸”和“脑”的所指已经发生了变化。如何理解这一观点呢?


举个简单的例子:假设存在一个孪生地球,其居民的生活方式、语言均与人类相同,但他们的水分子构成为 XYZ,而不是 H2O。两种“水”在外观、用途和名称上并无差异,且两地居民对“水”的心理感知相同,但它们指向的实质却不同,因此其含义也应有所区别。这也启示研究者要从符号落地(symbol grounding)的视角看待大模型[1]。


我们研究团队的成员前段时间发表了一篇论文:Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models(《缸中之脑:关于大语言模型建立的通用人工智能的一些缺失》)。该论文指出大模型无异于“缸中之脑”,因为大模型本身并不存在于真实世界中,无法像人一样实现从“词语(word)”到“世界(world)”的联结。


这一点是由它的内在构造机制所决定的,即通过统计建模在大量文本上进行训练,学习文本之间的语言学相关关系,从而根据上一个词语预测下一个词语。缺乏符号落地使得大模型很容易陷入无限循环,如图 1-2 所示,用户启动了一个话题,让两个 GPT-4 进行对话,它们在只进行一轮对话后,就开始对彼此表示感谢,并且无限重复“感谢”。这与符号落地理论相呼应,即当不能建立从词语到世界的联结时,对话将进入无限循环。

图片
图 1-2 两个 GPT-4 无限循环的对话


大模型的智能与其说是内在的,不如说是人类智能的投影。大模型生成的文本本身并不具有意义,其意义完全取决于人类用户对文本的阐释。美国语言学家诺姆·乔姆斯基(Noam Chomsky)曾经尝试挑战语言学界,构造了一个符合语法规范但无意义的句子:无色的绿思狂暴地沉睡(Colorless green ideas sleep furiously)。中国语言学之父赵元任在《从胡说中寻找意义》一文中,以一种充满哲思的方式阐释了这个句子:


我有一个朋友,总是充满各种想法,好的和坏的,精致的和粗糙的,陈旧的和新颖的。在付诸实践之前,他通常会把新     的想法放在心里,让它们成熟和发酵。然而,当他匆忙时,有时会在想法完全成熟之前就付诸实践,换句话说,当它们还很 “生”的时候。他的一些“生绿”想法非常生动且丰富多彩,但并非总是如此,有些则相当朴素和无色。当他想起一些无色的想法仍然太不成熟,以至于无法使用时,他会再次考虑,或者让它们“睡觉”,正如他所说的那样。但是,其中一些想法可能彼此冲突和矛盾,当它们在同一晚上一起“睡觉”时,它们会爆发激烈的争斗,将整个夜晚变成一场噩梦。因此,我的朋友经常抱怨说,他那些无色的“生绿”想法睡得很狂暴。

这段充满哲思的阐释让我们深刻理解到,文字本身并不携带固有的意义,而是人类赋予了它们意义。这种意义既可以是字词本身的含义,也可以是结合了现实生活体验,从而超越单个字词而在语境中创造出来的新的含义。因此,意义的前提是符号落地。


现在的大模型更多的是在纯符号空间中进行符号组合,即使它们生成了诸如“我爱你”这样的语句,也不过是另一种形式的“缸中之脑”。这种表达缺乏对人类真实生活体验的深刻理解,因此与我们所认同和期待的“我爱你”有着本质的不同。

02 是真的掌握了概念,
还是仅仅形成了“隐藏记忆”

大模型训练数据集的不透明性,以及人类评估时所采取的指标差异,可能导致人类高估了大模型的真实性能。


大模型通常利用庞大且容易获取的互联网数据进行训练,而训练数据中可能包括了用于后续评估的数据集。由于我们目前无法确切了解 GPT-4 等大模型训练数据集的构成,“泛化”这一概念变得模糊不清。我们难以判断这些模型是真的掌握了核心概念,还是仅仅在从训练过程中形成的“隐藏记忆”中进行检索。这种不透明性阻碍了学术界对这些模型进行公正和可靠的评估。


图 1-3 显示的是一道连掌握加减进位运算的小学生都能正确解答的数学题,但是 GPT-4 大模型却算错了。这说明大模型没有掌握哪怕最简单的加减法运算规则。


图片
图 1-3 GPT-4 大模型出现的计算错误


图 1-4 显示的是 GPT-4 大模型未经事实验证,就胡乱编造地生成 “林黛玉倒拔垂杨柳”的事实性错误内容。这说明大模型虽然通过海量文本数据分别学到了“林黛玉在大观园”和“鲁智深倒拔垂杨柳”的内容,但是本质上并不具备事实判断的能力。它所表现出的乃是一种“知识幻象”。


图 1-5 显示的是 GPT-4 大模型编造的宋江、吴用、花荣“桃园三结义”的故事。这同样说明了大模型本质上不具备事实判断的能力,而只表现出一种“知识幻象”。


图片
图 1-4 GPT-4 大模型杜撰的“林黛玉倒拔垂杨柳”






请到「今天看啥」查看全文