智能设备必须能够根据捕捉到的图像信息来预测接下来可能发生什么。但即便是小孩子也知道将装满果汁的杯子倒过来会发生什么。然而,对于机器人来说,这却是一大难题。
位于西雅图的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)简称Ai2,是一家致力于解决人工智能问题的公司。该公司的研究人员成功研发了一套计算机程序,用以帮助机器人判断被摄像机捕捉到的物体接下来会如何运动。这项技术可以有效减少机器人出错的概率,并有助于提升自动驾驶汽车在陌生驾驶场景中的安全性能。
鲁斯贝·莫塔吉(Roozbeh Mottaghi)和他的同事开发的这套系统结合了“机器学习”和“3D建模”技术,可以对特定场景中物体的物理特性进行判断。研究人员将超过10000张图片渲染进了由3D物理引擎生成的简化场景中,而这些3D渲染都是亚马逊Mechanical Turk众包平台的志愿者们所开发的。
研究人员将这些图片和对应的3D模型输入一台大型计算机来进行“深度学习”,通过神经网络的交互逐步将一些简单的场景和特定的简单形式的力和运动形式结合。之后,当系统面对完全陌生的图像时,它便可以推断出该场景中可能存在的不同的物理力。
虽然这一系统还做不到百分之百的精准预测,但是大多数时候可以给出合理的推断。例如,在一张图片里订书机放在桌子上,程序可以预测到订书机可能从桌子上滑落,砸到地板上;某一张有咖啡桌和沙发的图片,程序可以判断出来咖啡桌可以在地板上自由移动,除非碰到了沙发。
鲁斯贝说,该项目旨在帮助机器学习真实物理世界的动力学。机器将通过捕捉到的图像来推测接下来可能发生的一切。
这项研究对于那些需要对环境做出快速反应的机器人意义重大,因为即使是配备有3D扫描仪的机器人,它们也经常需要通过分析接收到的图像来预测之后可能发生的物理行为,而且这种预测很难通过传统的“试错法”来实现。鲁斯贝说:“我不可能让机器人跑到超市里,推一推这个、试一试那个来学习。这样的话成本太高” 。
这一项目是“柏拉图”计划的一部分,目的在于赋予机器人视觉智能,让其具备超越物体识别和分类的更高级功能。柏拉图计划的另一个相关项目可以让计算机识别场景中存在的物理力,例如一名滑雪者如何从山顶滑下,或者一个空中飞行的足球将如何运行。
近年来,得益于“深度学习”的发展、计算机硬件的升级,以及大规模标签化图像数据库的建立,计算机的图像解析能力愈发强大。通过大量例子的学习,计算机已经能够描述、回答关于特定场景的一些问题,譬如“图片中有什么?”。然而,计算机远远不能回答“图片中正在发生什么”的简单问题。为了达到这种更深层次的理解,计算机必须清楚的知道真实的物理世界是如何运行的。
招聘
编辑、视觉设计、运营助理、实习生(编译)
地点:北京
联系:[email protected]
IEEE中国是DeepTech深科技的战略合作伙伴,想要获得最新的科技资讯和会议信息,敬请关注IEEE中国。
MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。
分享至朋友圈才是义举