由
中国人工智能学会、中国电子学会
联合主办的“中国智能机器人产业发展专题论坛”于8月23日上午在北京亦创国际会展中心的二层会议室C成功举行。
本论坛邀请了中外产、学、研、用等领域的知名专家学者参与,围绕国内外机器人和智能科学的发展热点和转型支点,聚焦智能机器人的智能装备和核心技术,共同探讨中国智能机器人发展的创新与变革。
来自西安交通大学教授、长江学者薛建儒教授,在他的《无人车场景计算与自主运动的研究进展》的报告中,给参会人员带来了他关于无人驾驶的多年的研究成果,主要介绍了自主智能技术在无人驾驶上的运用,并提出未来无人车的计算框架可能就是一个深度学习+GPU这样的一个计算模式。
以下是
薛建儒教授
的演讲实录:
薛建儒,西安交通大学教授,长江学者
薛建儒:感谢陈老师陈教授的邀请,我今天报告的题目是无人车场景计算与自主运动的研究进展,我来自西安交通大学,我从四个部分来给大家汇报一下我们在无人车方面所做的一些工作。首先对无人驾驶做一个简单的概括性介绍。因为无人驾驶这个事情现在非常热,刚才也有人提问无人驾驶。这是美国自然杂志2015年刊登的一篇特稿,描绘了无人驾驶广泛应用的愿景及展望,作者认为2020年无人驾驶车将广泛使用,将彻底颠覆我们未来的出行模式。表现为三个方面的巨大变化,一是更安全,二是更绿色,三是车辆共享,将来停车场就极大的缩小,节省出来很多的空间。
从技术角度看,无人驾驶技术有两条主要的技术路线,一个是自主智能,通过多传感的融合感知和鲁棒优化的运动控制使车能够适应交通场景。一个是互联智能,也就是通过车和车之间、车和交通设施之间的联网通讯来适应交通场景。这两条技术路线其实最终都会汇合在一起。我今天报告主要集中在无人车的自主智能。自主智能要解决的问题就是形成从感知和运动的闭环。因此必须解决两个核心问题,一个是场景感知与理解,二是驾驶决策、规划和控制。我们可以把这两个问题归结为两个方面:一个方面是场景计算,我们要将从多个传感器的场景感知数据转化为自主运动的决策依据。一个方面是自主运动,就是在场景理解的基础上做行为决策、局部运动规划,然后通过反馈控制来自主的运动控制。
场景感知系统用到三大类传感器:可见光相机、激光雷达和毫米波雷达,这三类传感器的感知范围、作用距离都不一样,不同的传感器可用于不同的驾驶任务。这个表的左边给出来辅助安全驾驶的功能。大家可以看到视觉几乎可以用在所有的自动驾驶任务中。但是目前计算机视觉在自动驾驶中所发挥的作用与人类驾驶员相比,几乎可以忽略不计,造成这种现象的原因很多,后面我会讲到。
我们知道要实现自主运动首先要规划路线,这个可以离线来完成,剩下的三个需在线实现。根据给定的路线在路段里面,要左转右转车道保持这是行为决策。确定行为决策以后要让车沿着规划的路径或者轨迹来运动,这是局部路径的规划。最后就是要实现反馈控制,通过控制方向盘、油门和踏板使车沿着预期规划好的路径行驶。
以上是无人车的基本概括。下面第二部分介绍无人车的场景计算。无人车场景计算就是分析处理多传感器的场景感知数据,提取两个方面信息,第一个几何度量信息,也就是车所在的位置和车道线和道路边界,以及和其他车之间的相对位置关系到底是什么。第二个要根据周围车辆和行人的运动意图推测将来一段时间无人车如何实现安全行驶。因此,我们可以把场景计算的任务分成三个层面。第一个层面是获得场景的三维信息和运动信息,在这个基础上我们要形成对场景的拓扑结构的一种表示,也就是说现在周围有几个车,我所在车道在哪里,然后道路的边界在哪里。第二个层面,是要理解交通标志、需要遵守的交通规则是什么。第三个层面的计算是需要做出推理和判断,这个时候要车道保持还是要换道,还是前方路口要左转还是右转。所以场景计算就是要实现从几何度量到推理预测的转变。
我们来看看场景计算的具体实现。其实可以把它进一步分解成两个方面。第一方面就是从静态角度来看场景,只考虑场景的静态部分,不考虑运动的车辆和行人,从几何拓扑结构,比如道路边界,这个路有多宽,有几个车道,车道线在哪里,车道线到底是黄线、虚线还是实直线。解决这些问题需要把地图和感知数据结合起来,形成场景中交通要素的几何度量,并且把它们的拓扑结构要提取出来。从动态角度,主要考虑交通参与者,比如说车辆、行人所占据的车道和空间,它们的运动轨迹以及对它们将来一段时间的运动预测。动态场景理解必须把交通规则和障碍物的检测跟踪结合起来。由于运动规划是对将来运动的规划,所以要基于当前的感知要推测将来的运动。
静态场景的第一个问题就是基于几何度量的定位。常用方法是用GPS+地图,但是GPS并不是每个时刻都有,而且现有的地图都是给人看的,它的分辨率及对场景的描述能力并不适合无人车用。对于无人车来讲要实现车道保持,定位精度必须到10厘米以内才可以。所以这就引出来一个高精度地图构建的问题。高精度地图在地图里嵌入了感知数据以提分辨率和对场景的描述能力。这种离线创建的地图实际上把很多视觉数据、激光数据的结构化信息放到地图里面来提高地图的表征能力。地图创建与定位是耦合关系,位置本身就测不准,地图创建的时候又要依赖于位置的信息。
这个演示是我们的无人车如何自主从地下车库开出来。无人车先离线建立一个地下车库的地图,然后基于地图+感知数据的定位方式,无人车从这个地下车库开出来。刚才讲的地下车库是一个非结构化的场景。车所行驶的环境并不是每个地方都有车道线,没有车道线的地方就是一个非结构化场景,非结构化场景就需要建立地图。在结构化场景里面我们需要把车道线和道路边界信息一起放到地图里面,这里面解决的问题是多源传感数据的时空对齐,比如我们不能单纯靠视觉,要通过激光和视觉融合来构建场景地图。要解决配准问题,因为多传感器的采集频率不一样、尺度也不一样。我们提出了一个方法高效的高维点集配准算法。
有了度量地图以后,环境感知对于路口的车道引导、对于特定区域感知以及对交通信号灯的识别变得就非常可靠。特定区域,例如收费站就是一个非结构化的场景。交通灯的识别在计算机视觉领域里面大家都觉得非常简单,但是在实际应用中我们会发现这个交通灯的识别单纯靠图像识别很难做到非常可靠。我们在地图里面加入了交通灯位置信息,这样就可以根据当前车辆位置预测交通灯出现在图像的什么地方,减小搜索范围,虚警率会降低很多。
对动态场景而言,我们要在障碍物比如行人和车辆检测和跟踪的基础上,解决预测运动意图问题。这种运动意图的预测必须要结合交通视觉知识。怎么来实现视觉知识表示与学习,就要用到机器学习方法。我们要标注场景的感知数据,通过检测跟踪得到位置序列,对位置序列来学习进行预测他的运动意图。这里面的难点就是鲁棒可靠的检测与跟踪,重点是学习路口区域的车辆和行人通行的行为模式。以往的对障碍物的检测、跟踪与识别研究都是分开去做的,但是在实际应用里面其实这三个问题耦合在一起,是一个问题。靠单个传感器是不行的,视觉目标检测中,比如行人检测、车辆检测目前只能做到80%的检测率,所以需要把激光和相机融合起来,这里面要解决的一个问题就是两个传感器之间的标定。我们有个工作是把激光数据映射到图像里面去,比如把四线的激光数据映射到图像里面。因为激光相对来说是比较可靠的,所以它可以给我们很多先验知识,有利于提高检测跟踪和识别的准确率。相机与激光雷达的标定误差会随距离发生非线性变化,对于车辆往往要求我们检测范围在100米左右,这样的情况下误差变得非常大,所以我们需要把图像里面的结构化里面与激光的深度结构信息对应,这里我们用深度边缘和图像边缘来对应,成功将三维激光点云数据映射到图像上,然后实现可靠的障碍物检测和识别。这里的视觉检测框架就是Faster RCNN,一种很好的深度神经网络,在视觉检测结果上用三维点云再去做一次校验,可以把虚警降低很多。