用「图灵测试」检验AI尤其是大语言模型，真的科学吗？

机器学习研究组订阅 · 公众号 · AI · 2024-08-30 19:20

主要观点总结

文章讨论了如何衡量大型语言模型（LLM）的智力水平是否接近人类，介绍了不同的测试方法以及专家们的观点。文章指出，图灵测试是检验机器智能的经典实验，但存在争议。除了图灵测试，还有新的测试方法被提出，如检查模型是否能理解自己的推理过程。同时，专家们也提出了关于机器智力定义和衡量标准的讨论。

关键观点总结

关键观点1: 大型语言模型如GPT表现出类似人类的行为，但尚未通过图灵测试。

GPT在律师资格考试中表现出色，但图灵测试是衡量机器智能的经典实验，目前大型语言模型还未完全通过。

关键观点2: 图灵测试用于检查机器是否能以人们乐于接受的方式与人互动。

但对于更通用的智能识别，图灵测试的效果尚不确定。

关键观点3: 新的测试方法被提出，例如检查模型是否能理解自己的推理过程。

研究人员提出将模型当作心理实验的参与者，观察其是否能理解自己的推理过程。此外，还有其他测试方法如ConceptARC等。

关键观点4: 专家对机器智力的定义和衡量存在争议。

专家对什么是人类的智能以及如何通过测试来评估机器的智能持有不同观点。图灵测试的有效性也受到质疑，被认为在某些情况下被过于字面化。

正文

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢？

在发布后的近两年时间里，ChatGPT 表现出了一些非常类似人类的行为，比如通过律师资格考试。这让一些人怀疑，计算机的智力水平是否正在接近人类。大多数计算机科学家认为，机器的智力水平还不能与人类相提并论，但他们还没有就如何衡量智力或具体衡量什么达成共识。

检验机器智能的经典实验是图灵测试，由艾伦・图灵在其 1950 年发表的论文《Computing Machinery and Intelligence》中提出。图灵认为，如果计算机能让与之进行打字对话的人相信它是人类，这可能就是智能的标志。大型语言模型（LLM），如 GPT，擅长像人一样说话，但尚未令人信服地通过图灵测试。

2023 年，加州大学圣迭戈分校（UCSD）的研究人员公开进行了一次图灵测试，目的是比较最新的 LLM 与 20 世纪 60 年代开发的聊天机器人 Eliza 的表现。在律师资格考试中获得高分的 GPT-4 表现相当出色，在 41% 的游戏中，评委认为它与人类无异。而它的前身 GPT-3.5 只通过了 14% 的游戏，低于 Eliza 的 27%。人类在 63% 的游戏中通过（被判定为人类）。

论文链接：https://arxiv.org/pdf/2310.20216v1

负责这项实验的 UCSD 认知科学博士生 Cameron Jones 说，人类得分如此之低并不奇怪。这是因为玩家预计模型会表现出色，所以他们更容易认为人类只是一个听起来像人类的模型。Jones 说，目前还不清楚聊天机器人必须达到多少分才能赢得游戏。

图灵测试可用于检查客服聊天机器人是否以人们乐于接受的方式与人互动，从而展示 Jones 所说的灵活的社交智能。不过，它能否识别出更通用的智能还很难说。Jones 说：「我们对什么是人类的智能还不甚了解。如果我们能更快地通过模型解决这个问题，我会感到很惊讶。」

圣塔菲研究所复杂性学教授 Melanie Mitchell 说：「我认为图灵测试的整个概念都被过于字面化了。」她认为，图灵提出的「模仿游戏」是一种思考机器智能可能是什么样子的方法，而不是一种定义明确的测试。「人们轻率地使用这个术语，说大型语言模型通过了图灵测试，而事实上它们并没有通过测试。」

新的测试

不过，如果图灵测试不能可靠地评估机器智能，那就提出了一个问题：什么方法可以？普林斯顿大学心理学家 Philip Johnson-Laird 和德国开姆尼茨工业大学预测分析学教授 Marco Ragni 在 2023 年 11 月发表在《智能计算》杂志上的一篇论文中提出了一个不同的测试方法：他们建议把模型当作心理实验的参与者，看看它能否理解自己的推理过程。

例如，他们会向一个模型提出这样的问题：「如果 Ann 很聪明，那么她是聪明还是富有，或者两者都是？」虽然根据逻辑规则，可以推断出安是聪明人、富人或两者都是，但大多数人类都会拒绝这个推断，因为设定中没有任何东西表明她可能是富人。如果模型也拒绝了这一推断，那么它的行为就和人类一样，研究人员就会进入下一步，要求机器解释其推理。如果它给出的理由与人类相似，第三步就是检查源代码中模拟人类表现的组件。

这些组件可能包括一个快速推理系统、另一个更深思熟虑的推理系统，以及一个根据上下文改变「或」等词的解释的系统。研究人员认为，如果模型通过了所有这些测试，就可以认为它模拟了人类智能。

英国考文垂大学研究机器智能并进行过图灵测试的计算机教授 Huma Shah 说，Johnson-Laird 和 Ragni 的方法可能确实会提供一些有趣的见解，但质疑一个模型的推理能力并不是什么新鲜事。「图灵测试允许这种逻辑质疑，」她说。

Shah 还表示，试图测试智力的麻烦在于，这首先取决于人们如何定义智力。是模式识别能力、创新能力，还是创造音乐或喜剧等创意的能力？「因此，如果我们没有就人工智能中的『I』达成一致，那么我们怎么能建立通用人工智能（AGI）呢？」

谷歌的软件工程师和人工智能专家 Francois Chollet 则认为图灵测试并不是特别有用。他说，一个好的测试应该有一个确切的、形式化的目标，并且应该衡量一个系统有多接近这个目标。他指出：「图灵测试并没有做到这些。」

Chollet 说，LLM 在图灵测试中的表现只能说明他们擅长使用语言，而这种技能完全来自于对大量数据的记忆。他认为，真正的智能并不在于掌握某项技能，而在于把学到的知识运用到新的、不同的情境中。「LLM 百分之百都是记忆。他们没有智能。他们没有适应能力。」Chollet 说。

在他看来，智力是一种有效获得新技能的能力，而这些技能是训练过程中没有准备好的，目的是完成与系统之前所见过的任务差异足够大的任务。人类终其一生都在与世界互动，本质上是在进行实验，以便建立一个反映世界如何运行的模型。这样当他们遇到新情况时，就能学会如何处理。新技能的范围越广，计算机就越接近实现通用人工智能。

Chollet 说：「如果你能让学习过程像人类大脑一样高效地处理信息，那么你就拥有了 AGI。」到目前为止，机器的学习效率远远落后于人脑，大约比人脑低 1 万倍。例如，计算机需要数百万张图片才能学会识别猫的图片，而人类只需一两个例子就能学会识别猫。

为了测试他定义的智力，Chollet 开发了抽象与推理语料库（ARC）。ARC 的挑战是通过基本的积木，如形状或大小等简单概念来完成的。这些积木用于创建任务，如按大小对物体进行分类或补全对称图案。测试对象会看到三个示例，他们应该能够识别目标并完成任务。Chollet 说，最好的 AI 大约有 30% 的时间能够实现目标，而人类则有 80% 的时间能够做到。

项目链接：https://github.com/fchollet/ARC-AGI

每项任务都不同于测试对象以前见过的任何任务，因此死记硬背无济于事。他说：「这是一场无法练习的游戏。当 GPT-4 通过律师资格考试时，很可能是因为它见过足够多与考试相似的例子，所以它能给出合理的答案，而不需要对法律有任何内在的理解。」

「这不是一个完美的测试。它有很多局限性和缺陷，」Chollet 说。例如，任务中存在足够多的冗余，在举出足够多的例子后，测试对象可能会对答案做出有根据的猜测。不过，他说，它的基本思想是可靠的。

前面提到的圣塔菲研究所复杂性学教授 Melanie Mitchell 认为，要想获得类似人类的通用智能，就必须有能力完成远远超出训练数据的任务。她和她的小组提出了 ARC 的修订版，围绕基本概念组织任务，例如一物在另一物之上，或一物在另一物之内。

ConceptARC 的理念是测试计算机解决方案的稳健性，方法是让计算机推导出一个概念的规则，然后将该概念应用到新任务中。