专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  一本在线的免费机器学习电子书↓ ... ·  3 天前  
宝玉xp  ·  OpenAI 直播的第 5 ... ·  4 天前  
量子位  ·  OpenAI员工意外泄露下一代ChatGPT ... ·  4 天前  
机器之心  ·  刚刚,OpenAI ... ·  6 天前  
51好读  ›  专栏  ›  新智元

AI瑞文智力测验超美国人平均IQ,计算模型用类比推理解决视觉问题

新智元  · 公众号  · AI  · 2017-09-04 12:59

正文

1新智元编译  

译者:熊笑 弗格森


【新智元导读】作为广泛应用于无国界的智力/推理能力测试,瑞文标准推理测验可以测验一个人的观察力及推理能力。在此前一项广受争议的对超过 80 个国家和地区进行的 IQ 调查中,曾得出了所谓的“国家(和地区)平均 IQ”。美国西北大学的研究团队开发出了一个新的模型,能够在标准智力测试中超过到美国人的平均 IQ 水平。这项研究构建了用类比推理解决视觉问题的模型,研究者表示:“目前绝大多关于视觉的 AI 研究都集中在对象识别或场景标记,而非推理。但是识别只有能够为后续推理所用才有其意义。我们的研究对于更广泛地认识视觉推理有重要意义。”



AI 模型在瑞文推理测试中表现超过了美国人的平均水平


前一段时间,美国西北大学的研究团队开发出了一个新的计算模型,能够在标准智力测试中达到人类水平。这项研究对于让 AI 像人类那样“看”并理解这个世界有重要意义。


让我们先看看什么是“人类水平”——研究所用的智力测试是瑞文标准推理测验(Raven's Standard Progressive Matrices,简称 SPM),由英国心理学家瑞文(J.C.Raven)于1938年创制,在世界各国沿用至今,用以测验一个人的观察力及清晰思维的能力。它是一种纯粹的非文字智力测验,所以广泛应用于无国界的智力/推理能力测试。


从 2002 年到 2006 年,英国心理学教授 Richard Lynn 和芬兰政治学教授 Tatu Vanhanen 在超过 80 个国家和地区进行了一次 IQ 调查,得出了所谓的“国家(和地区)平均 IQ”——这一结果引发了大量争议,对这一结果的诠释需要非常小心。




这是在调查中排名前 10 位的国家和地区,其中有不少名词是并列的。我们可以看到,中国香港和新加坡的国家平均 IQ 最高,达到 108。中国的国家平均 IQ 是 105,和日本并列第三。排在第二的是韩国(106)。美国的国家平均 IQ 是98,排在第9。


本文末尾,我们附上了  80 多个国家和地区的国家平均 IQ 排名。


图像识别只有能够为后续推理所用才有其意义


模型的开发者是西北大学 McCormick 工学院的电气工程和计算机科学教授 Ken Forbus 和前西北大学心理学博士后研究员 Andrew Lovett 。这一研究发表在了《心理学评论》(Psychological Review)上。



Ken Forbus 介绍说:“相对于成年美国人来说,该模型能够达到第 75 百分位,高出平均水平。人类感觉困难的问题,模型一样会感到困难。这显示出它具有和人类认知相似的一些特性。”


Ken Forbus


Forbus 的实验室开发了一个称为 CogSketch 的人工智能平台,能够解决视觉问题和理解图形,并给出即时、互动的反馈。新模型就是在这一平台上开发而成的。


CogSketch 还引入了一个基于西北大学心理学教授 Dedre Gentner 的结构映射理论的类比计算模型。Gentner 因该理论获得了 2016 年的 David E. Rumelhart 奖。


解决复杂视觉问题的能力是人类智力的重要特征之一。开发具有这一能力的 AI 系统体现了符号表征与类比在视觉推理中的重要性,并可能弥合计算机同人类认知之间的鸿沟。



上图是瑞文标准推理测验中的一道题目。根据题目中所展示的元素之间的关系,答题者被要求在空缺中填出应有的图形组合,选项一般有 6 - 8 个。


聪明如你,一定闪电般做出了选择。



这两道题是测试中比较难的——无论是对于人类还是对于 AI 来说,但它们无疑难不住关注新智元的你。


有兴趣做一套瑞文测试?可以去这里:http://www.ravensprogressivematricestest.com。一共有 60 道题。


“瑞文测试是现有的对心理学家所说的“流体智力”——即抽象思维、推理、模式识别、解决问题和判别关系的一般能力——的最佳测试方法。”Lovett 说,他目前在美国海军研究实验室担任研究员。“我们的研究结果显示,对流体智力来说,灵活运用关系表征,并进行对比和再次阐释的能力非常重要。”


使用和理解复杂关系表征的能力是高级认知(higher-order cognition)的关键。关系表征连接了实体和概念,比如“钟表在门上方”或“压力差导致了水的流动”。这类比较对于制造和进行类比至关重要。而这正是人类赖以解决难题、做出取舍以及描述他们身边世界的关键方法。


Forbus 说:“目前绝大多关于视觉的 AI 研究都集中在对象识别或场景标记,而非推理。但是识别只有能够为后续推理所用才有其意义。我们的研究对于更广泛地认识视觉推理有重要意义。”


构建用类比推理解决视觉问题的模型


模型的开发者 Ken Forbus 和 Andrew Lovett 在《心理学评论》(Psychological Review)上发表了研究报告,题为《Modeling Visual Problem as Analogical Reasoning》。


研究者表示,类比也许是人类智能的一个里程碑。通过比较两个领域并确定其结构的共同点,可以推导出有用的推论、得出有启发性的抽象结果。类比可以驱动科学发现,当年 Rutherford 就曾提出的电子围绕着原子旋转,就像卫星围绕着太阳旋转一样。但它也在我们的日常生活中扮演了重要的角色,让我们将过去学习到的经验应用到当下,比如,解决物理问题,选择电影观看或考虑购买新车一样。


类比的力量在于它的抽象本质。我们可以比较两种截然不同的情景,基于其关系结构的共同点,将我们在一种场景中学到的东西应用到另一种场景中。鉴于这种高度抽象的思维方式及其在人类推理中的重要性,当研究人员想要测试个人的推理能力时,他们往往依赖于具体的视觉任务,这可能令人感到意外。


图1


图1描述了 Raven Progressive Matrices (RPM)智能测试中的一个问题例子。这一测试要求参与者在一个三行三列的矩阵中对图像进行比较。RPM 被设计用于衡量被测试者的演绎能力(也就是在复杂的模拟环境中发现模式的能力),这一术语近期被另一个叫“流体智能”的词取代。近10年来,这一术语依然非常受欢迎,因为在预测被测试者的行为表现商,它取得了较大的成果,而且不仅是在视觉测试集,还包括口语的和数学的数据集等。


图2


一个视觉测试为什么能在衡量通用的问题上会有如此好的效果?解决问题?研究者认为,去掉其固有的本质,RPM测试了个人进行高效的类比的能力。RPM与类比之间的联系在图 2 中得到了良好的证明。


上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。


在这种分析中,视觉(或者几何学)、口语和数学的类比方法都围绕着 RPM 进行聚合,这意味着,二者之间有着强大的关联,所以从整体上能对二者进行衡量。确实,RPM 能被看成是一个复杂的几何学类比问题,其中被试者必须定义首先出现的两张图片和顶层最上面一张图片之间的关系,进而计算出一个能在底部产生类比联系的图像。与这一说法相一致,Holyoak 和同事展示了,在进行类比的地图绘制和检索时,高的 RPM 表现要求更少的协助。


此外,一项脑成像研究的元分析发现,言语类比,几何类比和矩阵问题产生了可能与关系推理相关的常见脑区,也就是左侧前额叶前额叶标记。


上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。


研究者认为,支持有效类比的机制和策略也是支持视觉问题解决的机制和策略。为了测试这个说法,他们使用一个完善的计算模型,即结构映射引擎(RPM),对人力资源管理的绩效进行了模拟。虽然中小企业最初是为抽象类比而设计的,但越来越多的证据表明,其基本原则也适用于具体的视觉比较。RPM提供了测试大规模测类比在视觉思维中起作用的机会,并确定在SME提供的类比映射之外执行此任务所需的组件。特别是,考虑到感知和再现表现的双重挑战:你如何以支持抽象类比思想的方式来表达具体的视觉信息,当图像失调时如何改变表示?


上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。


这种方法还使研究者能够获得有关 RPM 的新洞见。通过去除模型执行某些操作的能力,并将由此产生的错误与人类成绩进行比较,研究者可以确定是哪些因素在让一道问题变得更容易或更难。如下所示,当(a)问题必须更抽象地表达或(b)需要复杂的重新表征操作时(complex rerepresentation),问题往往会变得更困难。最后,研究者关注的是,RPM 中的抽象思维和重新表征是否可能泛化到其他类比任务,从而成为人类智力的核心。


研究者详细地描述了 RPM,包括一个此前已经构建好的计算模型。之后,研究者提出了他们的理论框架,展示了类比推理如何更广泛地映射到 RPM和视觉问题的解决上。然后研究者描述了基于这一框架的计算模型。 


国家平均 IQ 排名



编译来源:http://www.mccormick.northwestern.edu/news/articles/2017/01/making-ai-systems-see-the-world-as-humans-do.html

论文 DOI:http://dx.doi.org/10.1037/rev0000039


【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位

点击阅读原文可查看职位详情,期待你的加入~