陈桦 编译自 DeepMind官方博客
作者 Adam Santoro, David Raposo, Nick Watters
量子位 报道 | 公众号 QbitAI
关系推理是什么?DeepMind举了这么几个例子:
阿加莎·克里斯蒂小说的读者一点点地拼凑证据猜测犯人;小朋友追到球的前边防止它滚进河里;在市场上买东西的人做各方面的比较,挑选猕猴桃或者芒果。
最近,这家公司发表了两篇论文,探讨了神经网络如何用非结构化数据进行复杂关系推理,并在官方博客上对这个研究课题和两篇论文进行了介绍。
以下是DeepMind官方博客上的文章,量子位编译:
我们会将世界分割成事物之间的关系。通过对不同事物,例如实体对象、语句,甚至抽象概念之间的关系得出逻辑结论,我们就可以理解世界的运转方式。这种能力被称作关系推理,是人类智慧的核心。
通过每天获得的非结构化感官信息,我们建立起这样的关系。例如,我们的眼睛接受了大量光子,而大脑则将这些混乱的信息组成为我们需要关联在一起的特定实体。
如果希望人工智能系统具备类似人类认知能力的灵活性和效率,那么关键挑战在于,从非结构化数据中推断出实体及其之间的关系。这个问题的解决将使系统可以生成新的实体组合,基于有限的方法获得无限的用途。
当代深度学习方法已经在处理非结构化数据方面取得了巨大进展。然而,这些方法往往没有明确考虑对象之间的关系。
在两篇新论文中,DeepMind探讨了深度神经网络利用非结构化数据进行复杂关系推理的能力。在第一篇论文,《用于简单关系推理的神经网络模块》中,我们描述了一种关系网络(RN),并证明其可以在具有挑战性的任务中实现超人的水平。在第二篇论文,《视觉交互网络》中,我们描述了一种通用模型,可基于视觉观察来预测实体对象的未来状态。
用于简单关系推理的神经网络模块
为了更深入地探索关系推理的概念,并测试能否以简单的方式将其集成至现有系统中,我们创建了一个简单的、即插即用的RN模块,并将其添加到现有神经网络体系结构中。一个经过RN增强的网络可以接受非结构化的数据输入,例如图片或语句,并推断其中所包含对象的关系。
例如,一个带RN的网络可能会看到包含不同形状的场景,例如球体和立方体。为了研究它们之间的关系(例如球体比立方体更大),网络必须从图像中获取非结构化的像素流,并指出在场景中哪些像素构成了对象。神经网络并没有被告知对象的定义,必须自己得出结论。随后,这些对象的展示经过了分组(例如球体和立方体),并由RN模块进行处理。RN模块比较这些对象,建立“关系”(例如球体比立方体更大)。这些关系并不是硬编码的,必须由RN来学习,RN对所有可能的配对进行了比较。最终,RN将这些关系综合在一起,为场景中的所有图形对生成输出。
我们在几种任务中测试了这个模型,包括CLEVR,一个视觉问答任务。CLEVR设计用于研究模型完成不同类型推理,例如计数、比较和查询的能力。CLEVR由以下这样的图片构成:
每张图片都有其关联的问题,专注于场景中对象的关系。例如,关于上图的问题或许是:“这里有个小橡胶品,和大圆柱体的颜色一样,它是什么形状?”
基于标准视觉问答架构,CLEVR取得的最佳成绩是正确率68.5%,而人类的成绩为92.5%。然而,通过由RN增强的网络,我们取得了超人的水平:95.5%。
为了检查RN的普适性,我们还在不同的语言任务中测试了RN。具体来说,我们使用了bAbI套件,即一系列基于文字的问答任务。bAbI由许多故事组成,这些故事包含许多不同语句,最后引出一个问题。例如,句子可能是“桑德拉拿起足球”和“桑德拉去办公室”,问题可能是“足球在哪里?”答案当然是:办公室。
在20个bAbI任务中的18个中,经过RN增强的网络得分超过95%,类似于当前最强大的模型。值得注意的是,在某些特定任务,例如归纳方面,这种网络的得分更高。而这是那些成熟模型所无法做到的。
完整的测试结果和更多信息可以参阅这篇论文。
视觉交互网络
关系推理的另一个关键部分涉及到在现实场景中预测未来。简单来说,人类不仅可以推断出对象在哪里,还能判断接下来几秒钟、几分钟、甚至更长时间里会发生什么。举个例子,如果你对着墙踢足球,那么大脑会预测,当球撞到墙之后,将会有什么样的运动方式(球的反弹速度和你踢的力度成正比,而在大部分情况下,墙都会纹丝不动)。