大模型集体失智？人脑也有不靠谱的时候！

中科院物理所 · 公众号 · 物理 · 2024-08-21 11:40

主要观点总结

本文主要讨论了人工智能模型在简单任务中的失误，以及这种现象在人类生活中的类似情况。通过描述AI模型在回答小数比较问题时的错误，引出人类大脑在处理视觉信息时的类似情况，包括视觉错觉和感知误差等。文章还介绍了相关研究和理论，如Retinex理论和光流法，并探讨了这些错误在科学研究、艺术创作和技术应用中的影响。

关键观点总结

关键观点1: AI模型在回答简单问题时出现错误，如小数比较。

AI模型在回答小数比较问题时出现失误，这引发了关于模型性能和局限的讨论。

关键观点2: 人类大脑在处理视觉信息时的类似情况。

人类大脑在处理视觉信息时也会出现错觉和感知误差，这涉及到大脑如何依赖经验和上下文进行推测。

关键观点3: 相关研究和理论的应用和影响。

文章介绍了Retinex理论和光流法等在视觉感知领域的研究和应用，这些理论和方法的出现有助于解释AI和人类在处理视觉信息时的复杂性和局限性。

关键观点4: AI或人脑的失误对科学研究和技术应用的影响。

通过研究和探讨AI或人脑的失误，可以获得关于人类视觉和认知过程的重要启发，对科学研究、艺术创作和技术应用都有深远的影响。

正文

请到「今天看啥」查看全文

随着计算机算力不断提高、算法的不断进步，基于人工神经网络的人工智能架构获得了空前的发展。深度神经网络不仅在模式识别、图像处理中得到了广泛的应用，在光学计量 ^[ ^{1

]} 、成像 ^[ ^{2

]} 等方面也硕果累累。而近些年逐步发展的AI大模型则更是融入到了人们生活的方方面面，可以协助人们绘画、创作文章、甚至是回答复杂问题。

而就在近日，有不少朋友发现各大AI大模型居然在简单的小数比大小上接连翻车，例如当人们对AI提问“9.11和9.9谁大？”时，AI会直接给出9.11比9.9大的结论。

笔者对GPT提问截图

以下是笔者整理的各个模型的回答结果：

对于这个情况，网友合理的解释可以分为“程序员背锅”派和“大模型偷懒”派。“程序员背锅”派认为：AI都是工程师开发的，对于工程师习惯用的版本号来说，9.11的版本号是要大于9.9的，因此9.9实际上为9.09，这在文章第一张图AI给出的解释也能发现一些端倪。

而“大模型偷懒”派则认为：可能是问题看起来太简单，大模型没有被激发出按一步一步基于规则推理的过程。回答的时候出现“偷懒”情况，直接给出很简短的答案，而没有推理过程。这个现象确实也是存在的，例如对GPT-4o来说，绝大部分都在先给出答案后进行了推理（一本正经的胡说八道）。

尽管两派对大模型犯错的解释不同，笔者认为这其实反映了同一个事实：大模型为了提高响应效率，会优先调取经验结果，而不执行高级的推理。通过改变提问方式，例如问ChatGPT：“911除以100和990除以100谁大”时，AI则能通过推理得出正确的结论。

换一种方式对GPT提问的回答

实际上，这种为了提高响应效率而给出一个亦对亦错的结果在人类的大脑行为中也是相当常见的。大脑常常使用启发式和简化策略来快速处理大量信息，例如错觉中常见的形状、大小或颜色的误判，反映了大脑在缺乏完整信息时如何依赖经验和上下文进行推测。人们总说“眼见为实”，而实际上，视觉信息由于存在高度的冗余， 正是大脑“偷懒”的高发区 。

大脑中形成的图像首先由眼睛接收到光学信号转化为神经电信号后进入大脑。在传入大脑的过程中加入了感性的理解。此外，大脑还会为了节约“计算资源”，提高响应效率，在一些快速给一个“经验性”的答案，进一步导致人类真实的感知不一定和物理事实吻合，使得眼睛轻易被蒙混过关。

例如我们在观察下图的棋盘格时会产生B处颜色偏白，A处颜色偏灰，然而实际上这两个格子中的颜色是一样的。这是因为B格处于绿色圆柱体的阴影之中，而A处于阴影之外，视觉对事物颜色的感知会收到事物周边光照条件的影响，因此大脑会认为处于阴影之中B格的颜色“应该”比A格亮。

棋盘格阴影错觉图源：Google, Edward H. Adelson illusion

下图展示了两个处于不同环境色中颜色相同的球形。人们往往会认为左边的球形偏蓝而右边的球形偏绿，实际上两个球形的颜色是一样的。

除颜色外，人脑基于视觉的运动感知也会产生很多错觉。下图展示了著名的Pinna 旋转运动错觉。当人注视图片中心黑点，头部靠近（或远离）屏幕时，会很明显地感受到外圈的红色和蓝色圆环会朝相反的方向旋转，但事实上圆环并没有任何物理移动。这种错觉与颜色无关，即使图像换成灰度图像，人们同样会感受到。

Pinna 旋转错觉图源： Google, Pinna illusion

人类头部在移动的时候，人眼是无法始终注视在某一个物体的，因此诞生了一种利用图像边缘信息差异感知物体运动的能力，这种能力能够在原始茹毛饮血的时代，给人类的带来无与伦比的反应速度与信息处理能力。可见，不仅仅是人工智能，就连人类自己都会为了提升“计算效率”、减少响应时间而降低“计算精度”。

视觉依赖图像局部特征以及大脑依赖经验的能力是人类生存和快速适应环境的重要依靠，对人类视觉感知世界的研究不仅有助于生物医学的发展，还极大地促使了计算机视觉领域的进步。可以说，计算机视觉的终极目标就是实现人类的视觉处理能力。

例如，基于人类视觉感知的研究，Edwin Land提出了一种叫做Retinex的理论，现在已经是计算机视觉领域应用广泛、影响深远的图像照明矫正算法之一。Retinex 是“retina”和“cortex”两个词的结合，指的是眼睛的视网膜和大脑的视觉皮层共同作用以解释视觉信息。

Retinex理论的核心思想是：物体的颜色感知是相对的，取决于物体在场景中的周围环境和光照条件。根据 Retinex 理论，人眼通过比较不同区域的亮度和颜色信息来感知物体的颜色，这种对比和计算使我们能够在不同的光照条件下识别物体的颜色。Retinex理论现在已经成为了计算机视觉领域用于照明矫正的经典算法 ^[ ^{3

]} ，并在图像分割 ^[ ^{4

]} 、光学相位解包裹算法中也能看到Retinex的身影。

利用多尺度Retinex (右图) 的图像照明增强 ^[ ^{5

]}

此外，基于人类视觉对运动的感知，光流法（optical flow）应运而生。光流法通常是基于图像梯度计算，利用图像的空间和时间梯度来估计像素的运动。最著名的光流计算方法之一是 Lucas-Kanade 方法，该方法通过在局部窗口内（通常为 3x3 或 5x5 像素块）最小化光流方程的平方误差来计算光流。光流法可用在图像超分辨、图像模糊检测 ^[ ^{6

]} 。