辛顿与李飞飞对谈：AI是否具备语言理解和推理能力？

人工智能学家 · 公众号 · AI · 2025-01-13 17:16

正文

来源：语言学新得

本文节选自杰弗里·辛顿与李飞飞的对谈，深入探讨了AI基础模型的特征、语言理解和逻辑推理能力。通过两位AI巨擘的精彩对话，您将领略到AI技术的最新进展和未来趋势。本文内容权威、信息丰富，是不可多得的AI科普佳作。

英文编校与中文译注陈国华卢培培

¹ 本文选自Geoffrey Hinton in conversation with Fei-Fei Li — Responsible AI development. Arts & Science - University of Toronto (https://www.youtube.com/watch?v=QWWgr2rN45o, recorded October 4, 2023) 的文字自动转写。本文译者感谢北京大学 詹卫东 教授对译稿中多个术语译名的修改建议，同时感谢上海外国语大学 金立鑫 教授对译文提出的修改建议。

2025年1月7日，全球瞩目的2025消费电子展（Consumer Electronics Show，简称CES）在拉斯维加斯开幕，当天英伟达创始人兼首席执行官黄仁勋发布了该公司研发的RTX50系列图形处理器（Graphics Processing Unit，简称GPU）及其衍生产品。这标志着AI的疆域已经从大语言模型（Large Language Model，简称LLM）拓展到了 世界模型 （World Model，李飞飞称之为大世界模型）。正如大语言模型实际是一种模拟器（simulator），模拟人类各种官能的神经网络对语言的认知和产出，世界模型也是一种模拟器，模拟人类这些系统的神经网络对物理世界的认知并将之化为实用。大家都知道ChatGPT是一种大语言模型，可是并非人人都知道它还是基础模型（foundation model，又称large X model，简称LxM），而世界或大世界模型也是一种基础模型。

2023年10月，多伦多大学艺术与科学部举办了一场杰弗里·辛顿和李飞飞的对谈，题目是 “杰弗里·辛顿 ² 与李飞飞 ³ 对谈：人工智能的负责任发展” 。在这场长达近2个小时的对谈中，李飞飞提到她领导的世界实验室正在建设大世界模型。 二人还交换了有关ChatGPT是否理解人类语言，是否具有思维能力的看法。 关于ChatGPT的理解和思维能力，学界至今仍分为两派，以乔姆斯基为代表的主流语言学者和AI研究领域里的符号主义研究者是多数派，辛顿一直是少数派的代表。二人解释了什么是基础模型，并表达了对ChatGPT的理解能力和推理能力的看法。辛顿用一个类似脑筋急转弯的例子说明，ChatGPT不仅理解人类语言，而且具有一定的逻辑推理能力，也就是说ChatGPT的理解已经进入智能范畴；李飞飞却不以为然，但未加反驳。这场对谈是一堂信息量十足而且十分风趣的LLM科普课。

² 杰弗里·辛顿（Geoffrey Hinton），常简称杰夫（Geoff），多伦多大学校级荣休教授（University Professor Emeritus），与学生合作，改进了用于训练人工神经网络的反向传播算法，让机器实现了深度学习，之后又设计了亚历克斯网（AlexNet），在图像识别领域取得重大突破；2018年获图灵奖（计算机科学界的最高奖），2024年先后获都柏林大学学院尤利西斯奖章和诺贝尔物理学奖。

³ 李飞飞（ Fei-Fei Li ），斯坦福大学计算机科学系教授，因建立对人工智能的发展产生重大影响的图像网（ ImageNet ）而成名，曾任斯坦福大学人工智能实验室主任和谷歌副总裁，现任斯坦福以人为本人工智能研究所（ Stanford Institute for Human-Centered Artificial Intelligence ）联合所长和视觉与学习实验室（ Stanford Vision and Learning Lab ）联合主任。

微信公众号Z Potentials 于2024年10月14日全文刊发了这场对话转写文本的中译文，标题是“AI教父Hinton与AI教母李飞飞首次公开对谈”（Faye Yu和Grace Bo 编译）。该译本很可能是机器翻译后稍加人工编辑和润色而成，没有注释，存在不少漏译和误译之处，例如将one-shot learning译成“一次学习”，将Bayesian framework译成“基础框架” ⁴ 。微信视频号“北清讲座”2025年1月8日转播了这场对谈，标题是“杰弗里·辛顿（2024诺奖获得者）聊人工智能）”。

⁴ 这一误译并非完全是译者的责任，因为转写本原文里此处是Beijing model。Beijing显然不对，但我们试了各种办法也未能确定李飞飞说的那个听起来有点像Beijing的是哪个词。忽然想到何不求教于万能的ChatGPT?结果ChatGPT秒答是Bayesian，而且还详细解释了什么是Bayesian model。

我们征得辛顿和李飞飞授权后，将这场对谈中有关 基础模型、AI的语言理解、AI的逻辑推理 这三个议题的内容节选出来 ⁵ ，核对音频，校勘文本，编译成中文，添加了3个小标题和十多个注释，以方便大家阅读和引用。

⁵ 本节选分为3节，第1-2节从油管视频45:17处主持人乔丹·雅各布斯的提问开始，第3节从1:30:35处一位听众的提问开始。

本译注将正式刊发于 《亚太跨学科翻译研究》 2025年第十七辑。

基础模型的两个特征

乔丹： 能否给那些不熟悉的人介绍一下什么是 基础模型（foundation model） ？
飞飞： 基础模型，有些人觉得里面得有 转换器 ⁶ 。
杰夫：它得是极大量的数据。
飞飞： 量非常大，用海量数据预先训练过。我认为基础模型最重要的一点是其对多种任务的 泛化能力（generalizability） 。我们不是训练它仅完成一种任务，例如机器翻译。在自然语言处理领域，机器翻译是一种非常重要的任务，但GPT这样的基础模型既能做翻译，也能与人对话，做总结等等。这就是基础模型；而且在多模态方面，例如视觉、机器人、视频等等，现在也有基础模型。
杰夫： 关于基础模型，还有一点非常重要。认知科学领域长期以来的一个普遍看法是，这些神经网络，如果你给它足够多的训练数据，就可以做复杂的事情，但它们需要多得可怕的训练数据。它们需要看过成千上万张猫图后才能学会识别猫；而人类的学习效率，就统计学意义而言，效率要高得多。也就是说，人类只需要很少的数据就能学会做这类事。这种观点现在已经不那么流行了。当时持这种观点的人是拿一个麻省理工学院本科生能学会做的事情与一个神经网络在有限数据的基础上从随机权重开始能学会做的事情相比。要想做一个公平的比较，我们可以拿一个已经在超大数据上训练过的神经网络基础模型，给它一个全新的任务，看它学会这个全新任务需要多少数据。这被称为 少示例学习 ⁷ 。我们会发现，就统计学意义上的效率而言，在需要多少数据就能学会一项新任务方面，基础模型胜过人类。先天派的旧观念认为，人类生来就拥有大量 先天知识 ⁸ ，因此人类要远远胜过这些基础模型，因为基础模型只能从数据中学习一切。人们现在几乎已经放弃了那种想法，因为我们可以把一个新任务交给一个没有先天知识但经验十分丰富的基础模型，你会发现它不再需要大量数据就能高效地学习。
飞飞： 你知道吗，我博士论文研究的就是单示例学习。不过有趣的是，你甚至可以在 贝叶斯框架 ⁹ 里进行预训练，但只有在人工神经网络这种框架里进行预训练，才能真正实现多任务学习。

⁶ 英文transformer，又译作转换模型，在计算机科学里指一种基于自注意（self-attention，多译成自注意力）机制的神经网络模型架构，用于自然语言处理、图形处理、科学建模和数据计算，由处理输入数据的编码器（encoder）和生成处理结果的解码器（decoder）构成，能对输入数据中字符（tokens）的位置信息进行编码，准确捕捉话语或语篇中词与词的长距离关系；其自注意机制使之能自主权衡句中不同单词的重要性并据此分配权重；其对数据的处理采用并行方式，能同时处理所输入的所有字符并可轻松扩大处理规模，从而极大地提高了大语言模型的效率和准确性。ChatGPT的最后三个大写字母代表Generative Pretrained Transformer，表明这是一种生成式经过预训练的转换器。

⁷ 英文是few-shot learning，更常见的译法是少样本。这一术语源自对图形的人工智能识别研究，shot最初指某一物体的照片，few-shot learning指仅凭某一物体的少数几张照片就能让人工智能学会识别某一物体，后面提到的单示例学习（one-shot learning，更常见的译法是单样本）指仅凭一张照片就能让人工智能学会识别某一物体。

⁸ 原文innatist idea指以柏拉图、笛卡尔为最主要代表人物的先验主义或理性主义学派提出的观念。该学派认为人的知识当中有一些（例如空间、时间、原因之类最基本的概念）不是后天学会的，而是像理性那样生来就有的，他们称之为先天知识（innate knowledge）。乔姆斯基是这一学派在当代最著名的代表人物。他认为人类的语言知识当中也有一些是人的生物禀赋（biological endowment）。他把这种知识称为普遍语法（universal grammar，详见Chomsky 1981: 232）。普遍语法由两种理论构成，一种是核心语法理论，另一种是扩展和修改核心语法的理论；前者决定着全人类独有的语言官能，后者决定着人们可接触到的各种特定语法各有什么类型特征。

⁹ 原文Bayesian framework是计算机科学的一个术语，指一种统计推断方法，可结合先前的信息与现在的观察结果进行预测或决策，广泛应用于计算机科学、信号处理、机器学习在内的多个领域。

ChatGPT的语言理解

乔丹： 这种技术基本是在ChatGPT里实现了产品化，全世界用上它才不过10个月。ChatGPT发布时，你的反应是什么？我知道你的一部分反应是离开谷歌，要做一些不同的事。但当你第一次看到它时，你是怎么想的？
杰夫： GPT-2 给我们大家都留下了深刻印象，之后稳步改进。不过，在 GPT-4 ，还有GPT-3.5发布前，我在谷歌内部看到了同样好的模型，比如 PaLM ¹⁰ ，因此ChatGPT的发布本身并没有让我有多惊奇。倒是PaLM 给我留下的印象更深刻，原因是 它能解释一个笑话为什么好笑。 我们知道，当它能解释一个笑话为什么好笑时，那它就真的理解了这个笑话。 PaLM就能做到这一点。当然并非每个笑话它都能解释，但它能解释很多。

在解释笑话为什么好笑这方面，这些模型做得已经相当不错了，但在讲笑话方面却仍很糟糕。这里有一个原因，即 它们生成话语或语篇的方式是一次生成一个词 。如果你让它讲个笑话，它会尝试讲出听起来像笑话的东西。它可能会说，“一个牧师和一只獾走进了一家酒吧”，这听起来有点像一个笑话的开头。然后它继续说一些听起来像是笑话开头的东西。但到了需要抖包袱的时候，由于它没有提前想好包袱是什么，只是试着让人觉得接下来会有包袱，结果最后抖出的包袱往往弱得可怜，因为它不得不临时找一个出来。因此，这些模型虽然能解释笑话（因为它们在回应前能看到整个笑话），却不会讲笑话。不过我们会解决这个问题。

……

有一件事我很晚才意识到，它让我对AI社会影响的兴趣大了许多，这就是飞飞说的“数据的力量”。大型聊天机器人看到的数据比任何人能看到的数据都要大千万倍。聊天机器人之所以能做到这一点，原因就是 我们可以将同一个模型复制成千上万份，每一份可以看一个不同子集的数据，它们根据其参数的调整从中获取梯度 ¹¹ 。所有模型都可以分享所有梯度，因此每个模型都能获益于所有其他模型从数据中提取的信息，而我们人类无法做到这一点。假设我们有 1 万个人，让他们分别去读 1 万种不同的书，每个人读完他那本书后，所有人会立马知道那本书的内容。假如真能那样，我们早就变得非常聪明了，而这正是这些模型正在做的事情，这使它们比我们强得多。

……

我们交流知识的方式，简而言之，是大致这个样子。我说出一句话，你来弄明白你的大脑里得做哪些改变才能让你也说出这句话。当然，条件是你信任我。这件事我们也可以用这些模型来做。如果你想让一个神经网络架构知道另一个完全不同架构知道的事，你不能只是把权重给它。你得让一个架构模仿另一个架构来输出，这叫 知识蒸馏 ¹² ，我们人类就是这样相互学习的。但这种学法效率很低，因为它受到句子信息容量 ¹³ 的限制，一句话的信息容量只有几百比特（ bits ）。如果你有这种模型，即这种有上万亿个参数的 数字代理程序 ¹⁴ ，每个代理程序负责不同比特的数据，然后大家彼此分享梯度。这就等于它们在共享数万亿个数据。这样看来，我们是把某种共享数万亿比特数据的能力与某种分享数百比特数据的能力相比。神经网络在知识分享上远远胜过我们。

¹⁰ 原文是Pathways Language Model的缩略形式，可以理解为路路通模型。这是谷歌开发的一个基于转换器（transformer）的人工智能大语言模型家族的名称，其转换器有5400亿个参数。

¹¹ 原文gradient指某一特征向量的逐渐增加或减少；向量（vector）指一个有大小和方向的量。

¹² 原文distillation指knowledge distillation。这是一种机器学习技术，用它可将大模型提取的知识转移到小模型里。在“蒸馏”过程中，大模型就像老师，小模型就像学生，研究人员用随机权重对学生模型加以初始化后，就用教师模型训练它，让它达到教师模型的输出概率。

¹³ 原文bandwidth的字面义是‘带宽’。

¹⁴ 英文是agent（多译作智能体），作为计算机科学术语，指一种用来执行某类任务的计算机程序或软件，可以置于机器人体内，成为其一部分；也可以作为应用软件，安装在电脑或手机里。

ChatGPT的逻辑推理

（答听众问）

问: 为了评估大语言模型或通用代理程序（generalist agents），我们需要的评测基准（benchmark），不是那种5分钟的基准 ¹⁵ ，而是更全面的基准，是什么？
杰夫: 这个问题问得非常好。不过我想回答一个不同的问题，这两个问题彼此有一种模糊的关联。这个问题是随着GPT-4一起出现的，即 我们如何判断它聪明不聪明？ 具体而言，我曾和一位名叫赫克托·勒韦斯克（Hector Levesque）的同事聊过这个问题，他曾是多伦多大学计算机科学系的教师。他的想法和我的几乎截然相反，但他在思想上极为坦诚。他对GPT-4的行之有效感到惊奇，想知道它到底是怎么可能做到这一步的。于是我们聊了很多。我让他给我一些问题，拿来问GPT-4。他给了我一系列问题，这样我们就能判断GPT-4是否理解了自己说的话，是真的理解自己在说什么，还是只不过利用某种精巧的统计来预测下一个词？关于这一点，一种说法是，要想真正很好地预测下一个词是什么，惟一办法是理解这个人之前说的话。所以， 理解是预测的前提。 但是我们也可以在不理解的情况下做出挺不错的预测。那么，GPT-4真的理解了吗？

赫克托提出的问题是：“我家的几个房间刷的要么是白色，要么是黄色，要么是蓝色。我想让所有房间都变成白色，我该怎么办？”我知道GPT-4能回答这个问题，于是就给问题加大难度。我说：“我家的几个房间刷的要么是白色，要么是黄色，要么是蓝色。黄涂料一年后会褪色变白。我想让所有房间两年后都变成白色。我该怎么办？”我还问“为什么？”如果你问“为什么？”GPT-4就会给你解释。它顺着问题答道：“应该把蓝色的房间刷成白色；不用管黄色的房间，因为这些房间会褪色变白。”可见它对措辞非常敏感。如果我们不用“褪色”改用“变色”，情况另当别论。有人向我抱怨说“我试着问了，但它没答对。”他用的是“变色”而不是“褪色”。关键在于，我们把“褪色”理解成颜色改变后维持不变。但如果我们说“变色”，那它既会变色，又有可能再变回原色。所以，我们说的如果是“变色”而不是“褪色”，它自然不会给出相同的回答。这让我信服它确实理解了。它还做了其他很多事。最近有人提出了一个很好的问题，很多聊天机器人没有答对，回答问题的人当中有的也没有答对，但GPT-4答对了。问题是这样的：“赛丽有三个兄弟，每个兄弟有两个姐妹，赛丽有几个姐妹？”大多数聊天机器人都答错了。
飞飞: 那人类呢？
杰夫: 这个嘛，我刚在拉斯维加斯做了一场炉边对话，一位采访者让我举例说明聊天机器人答错了。我给他讲了这个例子，他的回答是“6个。”这让人有点尴尬。
飞飞：我们不会问他叫什么，开个玩笑而已。
杰夫：不会的。因此人也会答错。但我不明白，如果不能进行一定程度的推理，聊天机器人怎么可能答对？它一定得设法建立某种模型。吴恩达 ¹⁶ 有一些这方面的例子。比如 下奥赛罗棋 ¹⁷ ，即使你只给机器人输入棋子一步一步的走法，它也会在其内部建立一个如何下这种棋的模型。所以我认为聊天机器人确实真的理解自己说的话。
乔丹: 进一步说，这种理解是否超越语言界，进入了智能范畴？
飞飞：诶呀，没有。
杰夫：是的。
乔丹：你说“是的”？
杰夫: 是的。我的意思是，我接受用图灵测试来测试智能。有些人只是在模型通过了图灵测试后才开始摒弃这种测试。

¹⁵ 此处指英国数学家和计算机科学家图灵（Alan Turing，1912 – 1954）于1950年提出的一种机器智能测试法（时称模仿游戏）所规定的测试时间，即当一台隐身的机器在5分钟之内通过与人类进行书面问答所展示的智能行为让人类裁判无法可靠地判断它是机器还是人时，这台机器即可被认定为通过了测试，也就是说，它具备了人类的智能。（详见Turing 1950）

¹⁶ Andrew Yan-Tak Ng，英籍美国华裔计算机科学家和技术企业家，曾任斯坦福人工智能实验室主任、谷歌大脑（Google Brain）创始人和主任、百度首席科学家，现任斯坦福大学计算机科学系兼职教授。

¹⁷ Othello，1883年发明于英国的一种外形和走法与围棋有些类似的棋，但每一棋子两面的颜色不同。因一方能在己方棋子将对方棋子前后夹住的情况下把对方棋子翻转成为己方棋子而起名叫翻转棋（Reversi）。1971年日本人长谷川五郎将棋的走法略做改变，并将棋子两面的颜色改为黑色和白色，因莎剧《奥赛罗》中的男主人公黑人奥赛罗听信部下挑拨怀疑白人妻子对自己不忠而最终将之掐死，于是将该游戏改名为奥赛罗。

参考文献

Chomsky, Noam. 1981. Knowledge of language: its elements and origins , Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences 295 (1077): 223 – 234.

Turing, Alan . 1950. Computing Machinery and Intelligence , Mind 59 (236): 433–460.

译者简介

陈国华 ，现任北京外国语大学外国语言研究所教授；1974年中国人民解放军洛阳外国语学院本科毕业，1985年北京外国语学院硕士毕业，1996年获英国剑桥大学英语语言学博士学位；历任《外语教学与研究》副主编；北京外国语大学英语系教授、副主任；北京外国语大学学位委员会委员和学术委员会委员；教育部人文社科重点研究基地中国外语教育研究中心研究员、主任、副主任；国务院学位委员会外国语言文学学科评议组（第5-6届）成员；英国语文学会理事会理事；广西师范大学漓江学者、北京外国语大学常青学者；主要研究语言学理论、英汉对比与翻译、双语辞典学。近4年的主要学术成果是陈国华译（2023）《大宪章》（商务印书馆（汉译世界学术名著丛书）、陈国华（2023）“《举业童子问》: 新发现的现存最早本土中文文法”、索绪尔原著，巴斯金英译，陈国华、卢培培导读并注释（2022）《普通语言学教程》（ C ourse in General Linguistics ）、威廉·莎士比亚著，安褚斯、维南德主编，陈国华中文总主编（2021 – 2022）《中文详注剑桥莎士比亚精选》（14卷）、陈国华等（2020）《新型初级汉英教学辞典编纂研究》、李腾龙、陈国华（2020）《基于西方语言学与传统文字学的汉字构字理据及排序研究》。

卢培培 ，北京外国语大学中国外语与教育研究中心博士生。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

辛顿与李飞飞对谈：AI是否具备语言理解和推理能力？

正文

请到「今天看啥」查看全文