选自DeepMind,作者:S. M. Ali Eslami、Danilo Jimenez Rezende,机器之心编译。
给定立方体积木的几个侧面剪影,你能否「脑补」出它的整个 3D 形状?这看起来像是行测中的图形题,考验人们从 2D 画面到 3D 空间的转换能力。在 DeepMind 最新发表在顶级期刊 Science 的论文《Neural scene representation and rendering》中,计算机通过「生成查询网络 GQN」也拥有了这种空间推理能力。
DeepMind 创始人(同时也是该论文的作者之一)戴密斯·哈萨比斯表示:「我们一直着迷于大脑是如何在意识中构建空间图像的,我们的最新《Science》论文引入了 GQN:它可以从一些 2D 快照中重建场景的 3D 表示,并可以通过任何新的视角不断增强这一表示。」
理解视觉场景时,我们依赖的不仅仅是眼睛:我们的大脑利用已有知识来推理,并做出远远超过视线所及的推论。例如,当第一次进入一个房间时,你会立即认出里面的物品以及它们的位置。如果你看到一张桌子的三条腿,你会推断可能还有第四条腿,形状和颜色相同,只不过在视线之外。即使你看不到房间里的所有东西,你也可以勾画出它的布局,或者从另一个角度想象它的样子。
这些视觉和认知任务对人类来说似乎毫不费力,但对我们的人工智能系统来说却是一个重大挑战。如今,最先进的视觉识别系统需要使用由人类标注的大量图像数据来进行训练的。获取这些数据是一个成本高昂且耗时的过程,需要人工对数据集中每个场景中每个对象的每个方面进行标记。而实验结果通常只能捕获到整体场景内容的一小部分,这限制了根据该数据训练的人工视觉系统。随着我们开发出现实世界中更复杂的机器,我们希望它们可以充分理解周围的环境:最近的地面在哪里?沙发是用什么材料做的?哪一个光源产生了所有的阴影?电灯开关可能在哪里?
Learning to See - Ali Eslami_腾讯视频在这项发表在 Science 的研究中,DeepMind 引入了生成查询网络(Generative Query Network/GQN)的框架,其中机器通过到处走动并仅在由它们自己获取的数据中训练来感知周围环境。该行为和婴儿、动物很相似,GQN 通过尝试观察周围的世界并进行理解来学习。以此,GQN 得以学习合理的场景以及它们的几何性质,而不需要任何场景内容的人类标记。
GQN 模型由两部分构成:一个表征网络以及一个生成网络。表征网络将智能体的观察作为输入,并生成一个描述潜在场景的表征(向量)。然后生成网络从之前未观察过的视角来预测(想象)该场景。
Generative Query Networks_腾讯视频表征网络不知道生成网络将被要求预测哪些视角,因此必须找到尽可能准确描述场景真实布局的有效方法。表征网络能通过简明的分布式表示捕获最重要的元素,例如目标位置、颜色和房间布局。在训练过程中,生成器学习环境中的典型目标、特征、关系和规律。这组共享的「概念」使表征网络能够以高度压缩、抽象的方式来描述场景,让生成网络在必要时填写细节。例如,表征网络将把「蓝色立方体」简洁地表示为一个小的数值集合,生成网络将知道从特定的角度来看,这是如何以像素的形式表现出来的。
我们在模拟 3D 世界里一组由程序生成的环境中对 GQN 进行了受控实验,这些环境包含随机位置、颜色、形状和纹理的多个目标,还有随机光源和严重遮挡。在这些环境下训练后,我们使用 GQN 的表征网络来生成新的、以前未见过的视角下的场景表征。我们在实验中表明,GQN 具有几个重要的特性:
- GQN 的生成网络可以从新的视角非常精确地「想象」以前未见过视角下的场景。当给定场景表征和新视角时,它会生成清晰的图像,而不需要预先规定角度、遮挡或照明的规律。因此,生成网络是从数据中学习的近似渲染器(renderer):
- GQN 的表征网络可以学习计数、定位和分类目标,并且不需要任何目标级的标注。即使它的表征可能是很小的,GQN 在查询视角的预测也能达到很高的准确率,几乎和真实场景无法分辨。这意味着该表征网络可以准确地感知,例如识别积木块的精确配置:
- GQN 可以表征、测量和减少不确定性。它可以计算关于场景可信度的不确定度,即使其内容不是完全可见的,并且它可以组合一个场景的多个部分视角来构建一致的整体。下图中展示了它的第一人称视角和自顶向下视角的预测。该模型通过预测的易变性来表达不确定度,并随着它在迷宫中移动而逐渐减小(灰色椎体表示观察位置,黄色椎体表示查询位置)。