主要观点总结
本文报道了关于杨立昆在英伟达GTC 2025上的观点,他指出了符号操作与真实理解之间的鸿沟,并强调了发展模型的推理能力的重要性。文章还讨论了空间理解模型SpatialLM的案例,以及AI团队的角色和优势。同时,也提到了符号操作的价值,并讨论了AI能否真正理解世界的技术和哲学问题。
关键观点总结
关键观点1: 杨立昆在英伟达GTC 2025上的观点
杨立昆指出符号操作与真实理解之间存在鸿沟,强调发展模型的推理能力的重要性。他认为当前的AI系统缺乏推理能力和可靠性,需要更强大的计算能力,特别是用于抽象推理的计算。
关键观点2: 空间理解模型SpatialLM的应用
SpatialLM是一个使用Real2Sim2Real方法让大语言模型学会空间理解和物理常识的模型。这是一个很好的案例,展示了如何借助先进的技术手段提升AI系统的能力。
关键观点3: AI团队的角色和优势
学界的研究员应勇于挑战高风险、高回报的方向,专注于解决基础问题。业界的工程师则需要发挥系统思维和技术专长,确保AI在真实世界中可靠运行。双轮驱动,各司其职,才能让创新真正开花结果。
关键观点4: 符号操作的价值与AI理解的挑战
符号操作是理解的起点,但远不是终点。真正的理解需要感知与经验作为内核。AI的最终目标可能是逐步逼近理解世界的能力,这需要从多模态感知、世界模型建立、新的推理机制等多个方向入手。
正文
近日,在
英伟达
GTC 2025 的“炉边对话”环节中,图灵奖得主、
Meta
首席 AI 科学家、美国纽约大学教授
杨立昆
指出:
“仅仅依靠语言和文字训练出来的 AI 系统,永远无法逼近人类的理解力。”
他进一步指出,符号操作与真实理解之间存在一道不可逾越的鸿沟。
图 | 杨立昆在英伟达 GTC 2025 的“炉边对话”环节(来源:英伟达 GTC)
与此同时,杨立昆认为“通用人工智能(AGI,Artificial General Intelligence)即将到来”完全是无稽之谈。而他更愿意谈此前由他和团队提出的高级机器智能(AMI,Advanced Machine Intelligence)。
这个观点再度挑起了人们对于 AI 本质的深层讨论:究竟机器能否真正理解这个世界?还是它们永远只能停留在符号的表层游戏之中?
“AI 三教父”均认为 AI 不能单单依靠符号操作
在本次“炉边会谈”中,杨立昆还指出真正的智能需要建立在世界模型的基础上。
世界模型,能够从内部针对外部世界运作规律加以模拟,从而帮助它在没有直接接触现实的情况下做出预测和判断。比如,它能想象如果一只猫跳上桌子,可能会打翻桌上的花瓶。也就是说,世界模型不仅是语言上的理解,更重要的是具备一种“想象”与“推演”能力。
这意味着 AI 不再依赖人类标注好的数据,而是能够像婴儿一样通过观察、预测和自我修正,不断构建对世界的认知。
在 2024 年底的另一场谈话中,杨立昆曾指出人类婴儿四岁前接触到的感官数据,远远超过今天任何一个语言模型所能训练的数据量,即“四岁孩童花费 16000 小时学会的事,AI 要花几十万年”。如果 AI 系统能接触到类似的感知输入,或许也能逐步构建起对于世界的理解。
新加坡南洋理工大学杜宇轩博士表示,杨立昆的观点并不是孤立的,另外两位和他同样被称为“AI”教父的图灵奖得主持有类似观点。
在“AI 三教父”中,另一位“AI 教父”、图灵奖得主杰弗里·辛顿(
Geoffrey Hinton
)也表达过对于当前大语言模型局限的担忧。Hinton 认为,大语言模型要想理解世界就离不开多模态输入,即离不开视觉、听觉、语言等多种感官信息的融合。Hinton 曾明确表示仅仅依靠语言训练出来的模型,难以真正理解地空间和物体等概念。为此,Hinton 曾努力推动神经网络从语言模型向多模态模型演进,尝试让 AI 能够同时“看图”和“读文”,以便获得更加接近人类的认知结构。
第三位“AI 教父”、同样是图灵奖得主的约书亚·本吉奥(
Yoshua Bengio
)则主张推进所谓“系统 2 的深度学习”。“系统 2 的深度学习”是一个心理学术语,指的是具备更慢、更有逻辑的推理能力和抽象能力的认知系统。Bengio 认为,当前的深度学习模型更多体现的是系统 1,即能够快速反应、也能基于模式识别进行直觉判断。Bengio 希望通过构建新的架构和训练机制,让 AI 具备逐步推理、因果分析和规划能力,即让神经网络自己涌现出像人一样思考的过程。在这个问题上,Bengio 反对简单回到传统符号主义的老路,而是希望在连接主义的框架内继续深挖可能性。
从“AI 三教父”的立场可以看出,尽管他们主张的路线略有差异,但是他们的共识在于单靠符号操作是不够的。真正的理解需要感知、经验和推理这三者的参与。
要想理解这一观点,首先需要澄清符号操作的概念。符号操作,指的是 AI 对抽象的语言、文字或逻辑符号进行处理与组合的能力。早期的 AI 系统比如专家系统,正是依靠大量由人类事先编好的规则去“推理”。这些系统对于知识的掌握是来自于外部赋予而非依靠自己习得。在今天的大语言模型中,符号操作被推向了极致。像 GPT 这样的模型可以根据统计规律,预测接下来最可能出现的词语,从而生成一段听起来合情合理的回答。但是,这些模型真的理解了自己所说的内容吗?这是一个值得深思的问题。
美国麻省理工学院校友 Yuxuan 表示:“杨立昆指出了一个 AI 领域长期存在的深刻问题。符号操作本质上是针对抽象概念的逻辑运算,它能在形式上模仿智能的某些方面,例如进行推理、解决逻辑问题等。然而,真正的理解往往涉及到对世界的感知、经验、情感以及更深层次的直觉和常识。这些恰恰是符号操作难以触及的。”
对此,爱尔兰圣三一大学博士后研究员崔浩深有同感。她表示,一个经典的例子是塞尔(Searle)的“中文房间”思想实验:一个不会中文的人如果学会了“看到某个符号串就换成另一个”的规则,就能像“懂中文的人”一样作答。这个过程完全基于符号操作,却不涉及到对于语言含义的理解。
GPT“读遍”了互联网,却从未喝过一口红酒、摔过一只杯子
新加坡 Sea 集团 Sea AI Lab 的研究员
窦隆绪
认为:”
杨立昆
的观点揭示了当前 AI 发展的核心矛盾:即尽管我们在语言模型上取得了令人瞩目的进展,却忽视了真实智能的本质需求。这种观点是对‘AGI 即将到来’观点的深刻批评,挑战了目前普遍存在的过度乐观情绪。”
英国牛津大学博士后研究员赵睿对于杨立昆的观点也持整体支持的态度。人们会觉得大语言模型能够“理解”世界,其中很大一个因素是因为我们作为人类知道辞汇和现实概念的联系,所以在阅读大语言模型输出的文本时会自动进行联系和理解。事实上,大语言模型本身则并不具有这个联系。这就像是红绿色盲人士的确知道“红”“绿”这两个字对应着不同的颜色,但是他们始终无法依靠自己去区分这两个颜色,所以人们不会完全相信他们关于相关颜色的描述。同样地,我们也不应该相信大语言模型对文本词句的组合背后存在我们一般经验中所认为的“理解”。
崔浩认为:“大模型依赖文本 token 的预测,通过处理符号和规则来生成答案,而并不是真正地理解这些符号所指向的现实。例如,‘情人节喝红酒’对它来说只是一个概率上的语言结构,而不是与味觉、动作、文化、常识相关联的综合体验。因此,即使大模型表现得‘好像理解了’,也不能说它‘真的理解’了。理解,不只是处理符号,而是明白这些符号在现实世界中的含义和所指。比如‘红酒’这个词,对人类而言可能联想到颜色、气味、场景、社交氛围,以及它带来的影响比如‘喝酒不能开车’,这是建立在感知、经验和常识之上的语义理解。哪怕大模型可以在语言上描述‘打翻红酒杯、杯子碎裂、红酒顺着桌沿流下’,但它并不知道‘摔碎’意味着什么,更不知道‘红酒往下流’在物理上是怎样的过程。GPT 虽然‘读遍’了互联网,但它从未喝过一口红酒、摔过一只杯子,从未亲身体验过任何事情。它的‘理解’,更多是基于语言的概率结构,而非体验或物理常识上的因果模型。”
相比之下,所谓真实理解更加接近于人类的认知。真实理解不仅仅是对符号的处理,而是将这些符号与感知、经验、世界知识结合起来,形成一种对现实的、可解释的认识。举例来说:一个孩子看到玻璃杯掉在地上摔碎之后,他就会明白“玻璃易碎”的概念,这不是因为他听了多少关于玻璃的定义,而是因为他通过亲身体验建立了这种物理常识。这种从经验中习得、与世界互动建立起来的世界模型,是当前大多数 AI 系统所缺乏的。
所以,仅仅靠语言或符号系统,无法达到真正的智能。通过语言和逻辑所构建的世界模型是抽象的,远不及亲身感知、实际经验带来的理解深刻。
杜宇轩指出,这种现象背后的原因是因为当前的模型虽然庞大,但其学习的基础仍然是文字与符号。它们缺乏对现实世界的“语义锚定”,也缺少对于“因果”的直观把握。杜宇轩表示,它们没有一个内在统一的世界模型来确保其输出的一致性和逻辑性。这就是为什么模型有时会“自相矛盾”或者会在对话中出现“健忘”情况,因为它并没有真正形成一种持续的“情境意识”。
当前基于 token 预测的大模型,本质上只是在处理语言的统计模式,而非理解物理世界的复杂性。语言确实只是现实的低维投影,缺乏物理世界的连续性和因果关系。正如杨立昆所说,真正的智能需要建立在对物理世界的理解之上,这时就需要世界模型的参与,而不是仅仅只有语言模型。
前面提到,
杨立昆
更愿意谈 AMI。2022 年,杨立昆团队曾提出一款名为 JEPA 的世界模型架构,让 AMI 迈向了一小步。但是,人类智能本身就是高度专业化的而非“通用”的。虽然杨立昆预测未来 3-5 年内或许能够实现小规模的 AMI,然而要想达到真正的人类智能水平仍需时日。这种谨慎的预测比“AGI 即将到来”的叙事更为可信。
那么,AGI 与 AMI 之间的差异何在?英国牛津大学博士韩裕举例表示:“当人类全神贯注于一件事情时,可能会忘记时间,周围的温度、风声和人声都变得模糊甚至消失。这种现象在认知科学和神经科学中有着明确解释,即人类的大脑并非逐像素、逐帧地处理世界,而是依赖抽象层次的表征与结构化信息。”
韩裕表示,作为一种高度智能的系统,人脑的视觉处理体系呈现出明显的分层和抽象化架构。尽管视网膜接收到的是像素级的连续信号,但是在信号传递到大脑皮层之前,视网膜内部的神经回路已完成了初步的边缘和运动特征提取。随后,初级视觉皮层(V1,Visual Cortex 1)进一步提取低层次的边缘、方向和纹理特征,而高级视觉通路则将这些低层特征整合为物体、面孔和场景的抽象表征。
心理学研究也佐证了这一观点:人类的注意力会自然而然地聚焦于结构模式和关系,而非数字型的像素化细节。
这一生物机制为 AI 模型设计提供了启示。即 AI 模型不应该仅仅依赖像素级重建误差,而是要具备多层次抽象表征能力。
同时,更精细化的多模态处理、关系推理与因果推理能力,也被认为是通往高阶智能不可或缺的能力。
过去几年间,在知识泛化和零样本推理上,大语言模型和多模态模型已经取得了令人瞩目的成果。例如,Flamingo、LLaVA、GPT-4V 等多模态模型展示出跨感知通道的生成与推理能力。
然而,模型结构中的本质问题依然存在。问题的本质在于高维连续数据与离散数据的根本差异决定了模型泛化能力的边界。语言模型依赖的离散 token 序列只是现实世界的“低维”符号化投影,而真实世界本质上是高维、连续且充满动态变化的。
当前,主流大语言模型采用离散 token 的条件概率建模,着本质上是一种近似模拟,而非对连续物理过程和动态变化的真实理解。即它们只能在离散空间中拟合局部模式,难以处理非线性、多尺度耦合的物理系统。而依赖 token 预测的架构天然存在天花板,因为它基于离散符号,缺乏对于连续世界及其因果结构的表达能力。
因此,真正的智能需要从“token 预测”迈向“连续世界建模”,从“封闭字典”迈向“开放系统”,从“统计拟合”迈向“具身智能”。基于此,连续建模、多尺度物理一致性和因果推理,将成为未来 AMI 研究的三大支柱。
人类通过感受器来感知这个世界,虽然人体感受器的信号精度比目前的机器更高,但人体感受器的高信号精度并不是无法企及的自然法则,目前很多消费级设备已经达到甚至超越了人类的感知精度。比如,市面上轻易就能买到的红外摄像头就可以处理人眼无法捕获的红外线。赵睿认为:“从这个角度来看,简单地说‘符号操作和真实理解之间存在不可逾越的鸿沟’似乎有些问题,因为只要人们可以向系统中无限地添加感受器并将其数据 tokenize,那么系统就可以达到和人类同等乃至更优的感知能力。”其继续表示:“在我的理解中,杨立昆的观点重点在于选择新的方法发展 AGI 或者 AMI。这不能仅仅依靠‘文本’或‘图片’这些反映‘现象’的 token,而要发展‘推理’能力。至于推理是通过 token 还是其他方式实现,则并不在本次‘炉边谈话’的讨论范围之内。”
另外,
杨立昆
在“炉边谈话”中关于可靠性的讨论也很重要。可靠性的本质就是推理结论(输出)是否始终正确,或者说始终符合系统所被设计的目标。而在所有当代 AI 系统中,均存在可靠性上的缺陷。这在目前备受关注的自动驾驶和大语言模型领域显得尤为突出。大众似乎抱有一种盲目的乐观态度:只要沿着目前的技术路线走下去,可靠性会自动解决,但其实并非如此。