专栏名称: 中科院物理所
物理所科研动态和综合新闻;物理学前沿和科学传播。
目录
相关文章推荐
中科院物理所  ·  电子有可能是一个小黑洞吗? ·  17 小时前  
环球物理  ·  【高考物理】电学黑科技,一看就懂! ·  6 天前  
中科院物理所  ·  二维码涂黑几个会影响扫描结果吗? | NO.435 ·  6 天前  
51好读  ›  专栏  ›  中科院物理所

大模型集体失智?人脑也有不靠谱的时候!

中科院物理所  · 公众号  · 物理  · 2024-08-21 11:40

正文


随着计算机算力不断提高、算法的不断进步,基于人工神经网络的人工智能架构获得了空前的发展。深度神经网络不仅在模式识别、图像处理中得到了广泛的应用,在光学计量[1]、成像[2]等方面也硕果累累。而近些年逐步发展的AI大模型则更是融入到了人们生活的方方面面,可以协助人们绘画、创作文章、甚至是回答复杂问题。

而就在近日,有不少朋友发现各大AI大模型居然在简单的小数比大小上接连翻车,例如当人们对AI提问“9.11和9.9谁大?”时,AI会直接给出9.11比9.9大的结论。

笔者对GPT提问截图

以下是笔者整理的各个模型的回答结果:

对于这个情况,网友合理的解释可以分为“程序员背锅”派和“大模型偷懒”派。“程序员背锅”派认为:AI都是工程师开发的,对于工程师习惯用的版本号来说,9.11的版本号是要大于9.9的,因此9.9实际上为9.09,这在文章第一张图AI给出的解释也能发现一些端倪。


而“大模型偷懒”派则认为:可能是问题看起来太简单,大模型没有被激发出按一步一步基于规则推理的过程。回答的时候出现“偷懒”情况,直接给出很简短的答案,而没有推理过程。这个现象确实也是存在的,例如对GPT-4o来说,绝大部分都在先给出答案后进行了推理(一本正经的胡说八道)。

尽管两派对大模型犯错的解释不同,笔者认为这其实反映了同一个事实:大模型为了提高响应效率,会优先调取经验结果,而不执行高级的推理。通过改变提问方式,例如问ChatGPT:“911除以100和990除以100谁大”时,AI则能通过推理得出正确的结论。

换一种方式对GPT提问的回答

实际上,这种为了提高响应效率而给出一个亦对亦错的结果在人类的大脑行为中也是相当常见的。大脑常常使用启发式和简化策略来快速处理大量信息,例如错觉中常见的形状、大小或颜色的误判,反映了大脑在缺乏完整信息时如何依赖经验和上下文进行推测。人们总说“眼见为实”,而实际上,视觉信息由于存在高度的冗余,正是大脑“偷懒”的高发区

大脑中形成的图像首先由眼睛接收到光学信号转化为神经电信号后进入大脑。在传入大脑的过程中加入了感性的理解。此外,大脑还会为了节约“计算资源”,提高响应效率,在一些快速给一个“经验性”的答案,进一步导致人类真实的感知不一定和物理事实吻合,使得眼睛轻易被蒙混过关。


例如我们在观察下图的棋盘格时会产生B处颜色偏白,A处颜色偏灰,然而实际上这两个格子中的颜色是一样的。这是因为B格处于绿色圆柱体的阴影之中,而A处于阴影之外,视觉对事物颜色的感知会收到事物周边光照条件的影响,因此大脑会认为处于阴影之中B格的颜色“应该”比A格亮。

棋盘格阴影错觉 图源:Google, Edward H. Adelson illusion

下图展示了两个处于不同环境色中颜色相同的球形。人们往往会认为左边的球形偏蓝而右边的球形偏绿,实际上两个球形的颜色是一样的。


除颜色外,人脑基于视觉的运动感知也会产生很多错觉。下图展示了著名的Pinna 旋转运动错觉。当人注视图片中心黑点,头部靠近(或远离)屏幕时,会很明显地感受到外圈的红色和蓝色圆环会朝相反的方向旋转,但事实上圆环并没有任何物理移动。这种错觉与颜色无关,即使图像换成灰度图像,人们同样会感受到。

Pinna 旋转错觉 图源:Google, Pinna illusion

人类头部在移动的时候,人眼是无法始终注视在某一个物体的,因此诞生了一种利用图像边缘信息差异感知物体运动的能力,这种能力能够在原始茹毛饮血的时代,给人类的带来无与伦比的反应速度与信息处理能力。可见,不仅仅是人工智能,就连人类自己都会为了提升“计算效率”、减少响应时间而降低“计算精度”。


视觉依赖图像局部特征以及大脑依赖经验的能力是人类生存和快速适应环境的重要依靠,对人类视觉感知世界的研究不仅有助于生物医学的发展,还极大地促使了计算机视觉领域的进步。可以说,计算机视觉的终极目标就是实现人类的视觉处理能力。


例如,基于人类视觉感知的研究,Edwin Land提出了一种叫做Retinex的理论,现在已经是计算机视觉领域应用广泛、影响深远的图像照明矫正算法之一。Retinex 是“retina”和“cortex”两个词的结合,指的是眼睛的视网膜和大脑的视觉皮层共同作用以解释视觉信息。


Retinex理论的核心思想是:物体的颜色感知是相对的,取决于物体在场景中的周围环境和光照条件。根据 Retinex 理论,人眼通过比较不同区域的亮度和颜色信息来感知物体的颜色,这种对比和计算使我们能够在不同的光照条件下识别物体的颜色。Retinex理论现在已经成为了计算机视觉领域用于照明矫正的经典算法 [3],并在图像分割[4]、光学相位解包裹算法中也能看到Retinex的身影。


利用多尺度Retinex (右图) 的图像照明增强[5]

此外,基于人类视觉对运动的感知,光流法(optical flow)应运而生。光流法通常是基于图像梯度计算,利用图像的空间和时间梯度来估计像素的运动。最著名的光流计算方法之一是 Lucas-Kanade 方法,该方法通过在局部窗口内(通常为 3x3 或 5x5 像素块)最小化光流方程的平方误差来计算光流。光流法可用在图像超分辨、图像模糊检测[6]

基于光流法的运动估计

笔者认为,AI或人脑等复杂系统产生的错误往往是其“泛化性”的体现,这些系统的错误往往蕴含了AI或大脑在处理信息时的复杂性和局限性。通过研究这些错误,我们可以获得许多关于人类视觉和认知过程的重要启发,对科学研究、艺术创作以及技术应用都有深远的影响。

参考文献:(上下滑动可浏览)
[1] Chao Zuo, Jiaming Qian, Shijie Feng, Wei Yin, Yixuan Li, Pengfei Fan, Jing Han, Kemao Qian, and Qian Chen, "Deep learning in optical metrology: a review," Light: Science & Applications 11, 39 (2022).
[2] Fei Wang, Yaoming Bian, Haichao Wang, Meng Lyu, Giancarlo Pedrini, Wolfgang Osten, George Barbastathis, and Guohai Situ, "Phase imaging with an untrained neural network," Light: Science & Applications 9, 77 (2020).

[3] 季渊, 李星仪, 马新德, 廖亮, "面向舞台场景的改进Retinex低照度图像增强," 《光学精密工程》 31, 2573-2583 (2023).

[4] 刘冬梅, "结合Retinex校正和显著性的主动轮廓图像分割," 《光学精密工程》 27, 1593-1600 (2019).

[5] 顾文娟, 丁灿, 魏金, 阴艳超, 刘孝保, "基于双边滤波MSR与AutoMSRCR融合的低光照图像增强," 《光学精密工程》 31, 3606-3617 (2023).

[6] 夏晓华, 赵倩, 向华涛, 秦绪芳, 岳鹏举, "多聚焦图像离焦模糊区域的SIFT特征提取," 《光学精密工程》 31, 3630-3639 (2023).


来源:中国光学

原标题:光精漫谈 | 大模型集体失智?人脑也有不靠谱的时候!

编辑:virens


转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号


近期热门文章Top10

↓ 点击标题即可查看 ↓

1.假如一把枪的射程是 1500m,我能在 1501m 用手接住子弹吗?

2.明明是绿豆,怎么煮出了红色的汤,这健康吗?| No.416

3.苹果长出“果菌王”,科研人员千里求购,还尝了一口,结果……

4.听说油耳朵才会腋臭?祖先留给我们的天赋还真多

5.做噩梦,可能是免疫系统正在攻击你的身体
6.电风扇上装矿泉水瓶,效果堪比空调?真相是……
7.CPU干烧了,小明到底能不能把自己拉上去呢?| No.419
8.为什么飞机窗户玻璃下面总是有个小孔?| No.417
9.闻臭袜子和喂鸽子进ICU?都是因为它?
10.运动一定要30分钟以上才能减肥?29分钟就不行?
 点此查看以往全部热门文章