随着计算机算力不断提高、算法的不断进步,基于人工神经网络的人工智能架构获得了空前的发展。深度神经网络不仅在模式识别、图像处理中得到了广泛的应用,在光学计量[1]、成像[2]等方面也硕果累累。而近些年逐步发展的AI大模型则更是融入到了人们生活的方方面面,可以协助人们绘画、创作文章、甚至是回答复杂问题。而就在近日,有不少朋友发现各大AI大模型居然在简单的小数比大小上接连翻车,例如当人们对AI提问“9.11和9.9谁大?”时,AI会直接给出9.11比9.9大的结论。对于这个情况,网友合理的解释可以分为“程序员背锅”派和“大模型偷懒”派。“程序员背锅”派认为:AI都是工程师开发的,对于工程师习惯用的版本号来说,9.11的版本号是要大于9.9的,因此9.9实际上为9.09,这在文章第一张图AI给出的解释也能发现一些端倪。而“大模型偷懒”派则认为:可能是问题看起来太简单,大模型没有被激发出按一步一步基于规则推理的过程。回答的时候出现“偷懒”情况,直接给出很简短的答案,而没有推理过程。这个现象确实也是存在的,例如对GPT-4o来说,绝大部分都在先给出答案后进行了推理(一本正经的胡说八道)。尽管两派对大模型犯错的解释不同,笔者认为这其实反映了同一个事实:大模型为了提高响应效率,会优先调取经验结果,而不执行高级的推理。通过改变提问方式,例如问ChatGPT:“911除以100和990除以100谁大”时,AI则能通过推理得出正确的结论。实际上,这种为了提高响应效率而给出一个亦对亦错的结果在人类的大脑行为中也是相当常见的。大脑常常使用启发式和简化策略来快速处理大量信息,例如错觉中常见的形状、大小或颜色的误判,反映了大脑在缺乏完整信息时如何依赖经验和上下文进行推测。人们总说“眼见为实”,而实际上,视觉信息由于存在高度的冗余,正是大脑“偷懒”的高发区。大脑中形成的图像首先由眼睛接收到光学信号转化为神经电信号后进入大脑。在传入大脑的过程中加入了感性的理解。此外,大脑还会为了节约“计算资源”,提高响应效率,在一些快速给一个“经验性”的答案,进一步导致人类真实的感知不一定和物理事实吻合,使得眼睛轻易被蒙混过关。例如我们在观察下图的棋盘格时会产生B处颜色偏白,A处颜色偏灰,然而实际上这两个格子中的颜色是一样的。这是因为B格处于绿色圆柱体的阴影之中,而A处于阴影之外,视觉对事物颜色的感知会收到事物周边光照条件的影响,因此大脑会认为处于阴影之中B格的颜色“应该”比A格亮。棋盘格阴影错觉 图源:Google, Edward H. Adelson illusion下图展示了两个处于不同环境色中颜色相同的球形。人们往往会认为左边的球形偏蓝而右边的球形偏绿,实际上两个球形的颜色是一样的。除颜色外,人脑基于视觉的运动感知也会产生很多错觉。下图展示了著名的Pinna 旋转运动错觉。当人注视图片中心黑点,头部靠近(或远离)屏幕时,会很明显地感受到外圈的红色和蓝色圆环会朝相反的方向旋转,但事实上圆环并没有任何物理移动。这种错觉与颜色无关,即使图像换成灰度图像,人们同样会感受到。Pinna 旋转错觉 图源:Google, Pinna illusion人类头部在移动的时候,人眼是无法始终注视在某一个物体的,因此诞生了一种利用图像边缘信息差异感知物体运动的能力,这种能力能够在原始茹毛饮血的时代,给人类的带来无与伦比的反应速度与信息处理能力。可见,不仅仅是人工智能,就连人类自己都会为了提升“计算效率”、减少响应时间而降低“计算精度”。视觉依赖图像局部特征以及大脑依赖经验的能力是人类生存和快速适应环境的重要依靠,对人类视觉感知世界的研究不仅有助于生物医学的发展,还极大地促使了计算机视觉领域的进步。可以说,计算机视觉的终极目标就是实现人类的视觉处理能力。例如,基于人类视觉感知的研究,Edwin Land提出了一种叫做Retinex的理论,现在已经是计算机视觉领域应用广泛、影响深远的图像照明矫正算法之一。Retinex 是“retina”和“cortex”两个词的结合,指的是眼睛的视网膜和大脑的视觉皮层共同作用以解释视觉信息。Retinex理论的核心思想是:物体的颜色感知是相对的,取决于物体在场景中的周围环境和光照条件。根据 Retinex 理论,人眼通过比较不同区域的亮度和颜色信息来感知物体的颜色,这种对比和计算使我们能够在不同的光照条件下识别物体的颜色。Retinex理论现在已经成为了计算机视觉领域用于照明矫正的经典算法 [3],并在图像分割[4]、光学相位解包裹算法中也能看到Retinex的身影。利用多尺度Retinex (右图) 的图像照明增强[5]
此外,基于人类视觉对运动的感知,光流法(optical flow)应运而生。光流法通常是基于图像梯度计算,利用图像的空间和时间梯度来估计像素的运动。最著名的光流计算方法之一是 Lucas-Kanade 方法,该方法通过在局部窗口内(通常为 3x3 或 5x5 像素块)最小化光流方程的平方误差来计算光流。光流法可用在图像超分辨、图像模糊检测[6]。笔者认为,AI或人脑等复杂系统产生的错误往往是其“泛化性”的体现,这些系统的错误往往蕴含了AI或大脑在处理信息时的复杂性和局限性。通过研究这些错误,我们可以获得许多关于人类视觉和认知过程的重要启发,对科学研究、艺术创作以及技术应用都有深远的影响。[1] Chao Zuo, Jiaming Qian, Shijie Feng, Wei Yin, Yixuan Li, Pengfei Fan, Jing Han, Kemao Qian, and Qian Chen, "Deep learning in optical metrology: a review," Light: Science & Applications 11, 39 (2022).[2] Fei Wang, Yaoming Bian, Haichao Wang, Meng Lyu, Giancarlo Pedrini, Wolfgang Osten, George Barbastathis, and Guohai Situ, "Phase imaging with an untrained neural network," Light: Science & Applications 9, 77 (2020).
来源:中国光学
原标题:光精漫谈 | 大模型集体失智?人脑也有不靠谱的时候!
编辑:virens
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号