自动驾驶技术的研发现状
自动驾驶的发展基本存在两条技术路线。一个是跨越式开发,即直接做
L4
级别的自动驾驶系统,以高科技公司谷歌和百度为主,他们对车企行业了解不深,把机器人研发的模式用于自动驾驶车辆。注:据说谷歌也曾想从
L3
级别做起,但是实验发现测试人员一段时间以后很容易相信计算机系统,失去监控的耐心。这个技术路线多半不计成本,采用高清地图和高精密度惯导定位,可没有地图的地方也很难运营(不需要和导航地图接口,直接采用高清地图进行规划,对于大规模导航区域的高清地图下载和全局规划的计算复杂度缺乏认识),安装激光雷达这种最好最昂贵的传感器(当时视觉的深度学习技术比较初级),采用最强的计算平台(因为不是量产,一些
L4
自动驾驶公司直接采用工控机作为支撑,不需要考虑平台移植的工程难度),面向
robotaxi
的落地,虽然还没有针对任意场景,但在测试的高速和城市街道场景中,基于较可靠的感知性能,的确提供了面向复杂交通环境下最强的规划决策能力。目前看到的基于数据驱动开发的规划决策算法,多半来自于
L4
公司,而且其中几个还举办了这方面的竞赛(基于本身提供的开源数据集)。在仿真平台的建设上,也是
L4
公司远远走在前面(特斯拉基本已经具备
L4
开发落地能力),包括数据重放和单点测试的可视化能力。高清地图方面,
L4
公司的技术也比较成熟。收集的传感器数据,
L4
公司在包括激光雷达和车辆定位轨迹等方面,也高于一般的
L2
公司。
另一条路线是渐进式开发,即先从
L2
级别的辅助自动驾驶系统起步,然后逐渐适应更复杂的交通环境,从高速高架慢慢过渡到有闸道有收费站的场景,然后进入城市大街和小路,自动驾驶系统的级别也慢慢演进到
L2+
、
L3
、
L3+
和
L4
水平。注:最近看到一种新趋势,即
L4
自动驾驶级别的开发公司,和
L2
级别自动驾驶的主机厂和
Tier-1
合作,共同开发
L2+
的量产级别车辆。渐进式开发的技术路线,一般是主机厂和
Tier-1
采用,他们首先会考虑成本、车规和量产用户的
ODD
定义。早先以
mobileye
为主要供应商,之后特斯拉和英伟达的开发模式成为主流。因为成本,所以这种路线多半采用摄像头为主传感器,加上车企已经接受的毫米波雷达为辅助。相对来说,这个路线的前沿水平(比如特斯拉)基本上视觉感知的能力尤其突出。因为在融合中雷达出现大量虚警信号,特斯拉甚至在自动驾驶感知模块中放弃了它。以前泊车自动驾驶采用超声波传感器,逐渐也和鱼眼摄像头结合提供泊车辅助、记忆泊车甚至代客泊车的应用。特斯拉也采用超声波提供拥挤交通场景的感知。也许是成本的压力,渐进路线一般是
“
重感知、轻高清地图
”
的模式,甚至特斯拉已经在
BEV
网络模型中实现了感知和在线地图及定位的端到端集成。作为行业领军企业的特斯拉,慢慢完善了数据驱动的开发工具链,实现了一个包括数据筛选、数据标注、仿真模拟、模型迭代、场景测试评估和模型部署等的数据闭环。基于自动驾驶的长尾问题和
AI
模型的不确定问题,谷歌也有类似的框架,但特斯拉将其发挥到极致,在量产的用户车辆上实现了良性循环,目前也已经推出
L4
级别的自动驾驶版本
FSD
。
自动驾驶基本存在
1.0
和
2.0
两个发展阶段。自动驾驶
1.0
时代采用多种传感器构成感知输入,比如激光雷达(
Lidar
)、视觉相机、雷达(
Radar
)、惯导
IMU
、轮速计和
GPS/
差分
GPS
等,各个传感器在感知能力上存在差异,针对性用多模态传感器融合架构,目前多是采用后融合策略,把各个传感器在相关任务的结果进行一次滤波,达到互补或者冗余的效果。这方面存在两种路线,一是依靠激光雷达加高清地图的做法,成本高,主要是
robotaxi
等
L4
公司采用,另一个是视觉为主、轻高清地图的道路,成本低,多是
L2/L2+
自动驾驶公司为量产落地的思路。两种路线都是会有很传统的后处理步骤(特别是视觉),大量调试工作和问题也来自于此。另外,这个阶段的规划决策多是采用基于规则的方法,实际上没有数据驱动的模型,比如开源的
Autoware
和百度
Apollo
。
L4
公司由于运行场景在一些具备高清地图的固定地区,本身感知投入的传感器精度较高,已经做过数据训练规划决策模型的探索;相对来说,
L2/L2+
公司还没有建立数据驱动的规划决策模块开发模式,多是采用优化理论的解决方案,普遍从高速场景入手,升级到特斯拉那种
“
闸道
-
到
-
闸道
”
的模式,很少能支持城市自动驾驶的复杂场景(比如环岛路口和无保护左拐弯操作等)。
自动驾驶
2.0
时代应该是以数据驱动为标志,同时对于
1.0
阶段的感知框架也有比较大的改进。数据驱动的开发模式倾向于端到端的模型设计和训练,对于规划决策而言就是需要大量的驾驶数据去学习
“
老司机
”
的驾驶行为,包括行为克隆的模仿学习,以及通过基于模型强化学习(
M-RL
) 估计行为
-
策略的联合分布等,不再靠各种约束条件下的最优问题求解。其中轨迹预测是一个重要的前奏,需要对智体交互行为做良好的建模,并分析存在的不确定性影响。对于感知而言,
2.0
时代需要考虑机器学习模型取代那种传统视觉或信号处理(滤波)的部分,真正做到采集数据来解决问题的开发模式。比如特斯拉最近的
BEV
和
Occupancy Network
,都直接通过深度学习模型实现所需信息输出,而不是采用传统视觉和融合理论去二次处理模型输出。传感器融合理论也从后融合升级到模型中特征级融合甚至数据融合(如果同步和标定有一定的先验知识)。这里可以看到