专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

庞大的三维图像数据库，让家居机器人离我们又近了一点

DeepTech深科技 · 公众号 · 科技媒体 · 2017-05-08 13:32

正文

请到「今天看啥」查看全文

机器人技术如今已经是日新月异了，不管是软件上人工智能技术的飞跃还是硬件系统中外观设计和应用材料技术的进步，都预示着机器人即将更大程度地影响我们的生活。

但是，在机器人走进居家生活前，它们还需要掌握一项技能—— “识物” ——它们必须能够识别房间里各式各样的物体，至少能分辨什么是桌子，什么是婴儿床。而这却是现在大多数机器人不具有的功能。

图 | 3dscan3

那让我们来思考一下，我们是如何识物的呢。小时候似乎就是爸爸妈妈拿着儿童识物卡片给我们看，或者直接指着一些物体告诉我们这是什么。而这其实就是一个数据输入然后学习的过程。

如今,斯坦福大学、普林斯顿大学以及慕尼黑工业大学联合推出了一个三维图像数据库，可以作为机器人识物的数据输入。

该数据库名为“ScanNet”，囊括了上千个房间的场景，其中包括成大量附有说明的物体，例如咖啡桌、沙发、台灯还有电视机。“ScanNet”的推出还要感谢五年前由斯坦福大学独立创立的二维图像数据库“ImageNet”。

两者除了维度不同，大体十分相似，图片中也包含了每个物体的注释。但是“ScanNet”显然能够为机器人提供更多的数据支持。

来自慕尼黑工业大学的马蒂亚斯·奈斯纳（Matthias Neissner）教授是该数据库的开发者之一，对于“ImageNet”和“ScanNet”，他都给予的高度的评价：“‘ImageNet’提供了许多重要的信息，特别是图片中包含的物体注释。

数据库整体为人工智能的发展提供了先决条件。 而‘ScanNet’却可以真正帮助你的机器人认识家里的物体以及构局。”

图 | 使用现成的3-D扫描仪拍摄每个房间

说起来，奈斯纳教授还算是“ScanNet”的核心人物，这多元的开发团队几乎是因他才聚集到一起的。开发“ScanNet”时，他正在斯坦福大学进行学术访问，他在审视了“ImageNet”在深度学习方面的应用后，觉得如果使用三维的场景来训练计算机效果将会更加好。

这就是“ScanNet”数据库最初的构想，根据就近原则，他立刻召集了他的学生——就读于斯坦福大学的博士研究生安其拉·代（Angela Dai），以及普林斯顿大学的托马斯·方克豪瑟尔（Thomas Funkhouser）教授。而托马斯·方克豪瑟尔教授的学生随后也加入了研究团队。

如今，“ScanNet”已经全面上线，而组建数据库的方法也被研究团队总结分析，以论文的形式发表在计算研究知识库（The Computing Research Repository, CoRR）上面。

数据库的建立总是从数据采集开始 ，研究团队前后对1513个房间进行了采样分析，并利用与“Microsoft Kinect”类似的3D相机对整个场景进行拍摄，相机包含两个部分—— 一个常规摄像头 和 一个红外景深探头 ，能够拍摄出三维景象。接着，研究团队对拍摄场景中的物体进行标记和注释，操作十分方便，在IPad上就能进行。

与此同时，研究团队利用三维数据重建（3D Reconstruction）和对象分割（Segmentation）将拍摄的场景数据化。最后，再利用众包平台亚马逊土耳其计算机（Amazon’s Mechanical Turk）把注释信息和场景数据相结合。就这样，1513个房间就变成了训练机器人的识物小卡片。

图 | ScanNet的图像数据处理流程图

业内人士对“ScanNet”的评价颇高。来自布朗大学的斯蒂芬妮·特拉克斯（Stefanie Tellex），是一名研究居家机器人的助理教授，她认为“ScanNet”提供的数据量是前所未有的，并表示：“推出这么大的数据库意义是斐然的。因为 三维数据对于机器人识别及其与环境的互动来说是十分重要的 ，‘ScanNet’的出现正是恰逢其时。”

来自卡内基梅隆大学机器人研究所的悉达多·斯日尼瓦萨（Siddhartha Srinivasa）教授也认为“ScanNet”数据库的推出有利于帮助机器人走进居家系统，并表示“ScanNet”能够复制“ImageNet”的成功模式。

“ImageNet”就是靠着数据库本身的包罗万象以及图像注释功能火起来的，特别是在网页方面的应用，而这两点都是“ScanNet”推出时就有的特点。

图 | 一个显示不同颜色的注释项目的房间

对于数据库的应用，奈斯纳教授表示研究团队已经考虑并尝试将其应用在深度学习上，并发现计算机仅仅靠“ScanNet”提供的尺寸和形状信息就能识别许多物体。

这就意味着三维信息能够为计算机甚至为我们提供对现实世界更加深层次的认识。奈斯纳教授也戏称：“利用三维信息，也许能让计算机像动物一样认识物品。”

其实，“ScanNet”作为三维图像数据库并不仅仅是把三维的数据简单储存下来，它将图像中各个物体的信息也一并记录下来了，这就形成了更高的信息维度，使信息更加立体。

当然对于人工智能以及机器人来说， 数据的信息量自然是越多越好 ，即使是处于信息膨胀世界中的我们，对于信息的需求也是越来越大。“有注释的三维图像”必定会形成新的科学技术，如现在初具雏形的增强现实技术。

所以呢，虽然除了机器人和建筑方面的应用，三维数据库在其他领域的应用还是寥寥无几，但是新的应用肯定会陆续出现的。

- END -

编辑:杨一鸣

参考文献： Dai A, Chang A X, Savva M, et al. ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes[J]. 2017.

「 DeepTech深科技」招募全球记者、采编

申请加入：[email protected]