自动驾驶新书五一节后将要上市

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-27 01:28

正文

本人和 杨子江 教授合写的《 自动驾驶系统开发 》一书终于在清华大学出版社三校稿之后即将在五一节后出版。

清华大学汽车学院的工程院院士 李克强 教授撰写了序言。

该书得到了唯一华人图灵奖获得者 姚期智 院士、西安交大科学院院士 管晓宏 教授以及加拿大双院士杨强教授等的推荐，同时还有来自理想汽车董事长李想先生、地平线科技创始人余凯博士还有大众软件公司cariad总裁 韩三楚 先生的推荐。

另外自动驾驶行业中领军人物，来自文远科技CEO 韩旭博士、纽励科技CEO 徐雷博士、小鹏汽车自动驾驶高级工程总监 董远强 博士、英伟达自动驾驶工程总监罗琦博士（刚刚离开百度自动驾驶）、一汽红旗自动驾驶CTO 陈光博士和广汽自动驾驶首席科学家 陈学文 博士等的大力推荐。

本书系统地介绍当今自动驾驶前沿的技术理论，从自动驾驶的背景知识开始，对软硬件平台、感知、地图、定位、规划决策、控制、仿真和安全等方面展开深入讨论，并介绍自动泊车系统和车联网技术的应用。

全书共分 15 章：第 1 章是自动驾驶系统的概述（场景分类、开发路径和数据闭环等），第 2 章简介自动驾驶的基础理论，即计算机视觉和深度学习等，第 3 ～ 4 章是自动驾驶的软硬件平台分析，包括传感器、计算平台、软件架构和操作系统等，第 5 ～ 9 章分别介绍自动驾驶的感知、地图、定位、规划和控制模块，第 10 章重点介绍自动驾驶的仿真系统，第 11 章讨论自动驾驶的安全理论，第 12 章讨论自动驾驶的一个特例 - 自动泊车系统，第 13 章介绍车联网技术（车 - 路协同和车辆编队），而第 14 ～ 15 章分别介绍最近自动驾驶相关的两个技术热点，即 3D 场景的神经渲染（主要以 NeRF 为主）和扩散模型的内容生成。

本书主要是给有一些基础的读者阅读，比如具备在计算机视觉和机器学习（甚至深度学习）方面的理论基础和实践经验。本书提供大量自动驾驶前沿技术第一手的资料，涉及开发自动驾驶的方方面面。希望该书能够启发和触动自动驾驶第一线的开发人员，在遇到问题和困难的时候开阔思路并发现解决问题的方法。

在“ 前言 ”部分，关于自动驾驶的研究现状，作者做了如下分析：

“自动驾驶的发展基本存在两条技术路线。一个是跨越式开发，即直接做 L4 级别的自动驾驶系统，以高科技公司谷歌和百度为主，他们对车企行业了解不深，把机器人研发的模式用于自动驾驶车辆。注：据说谷歌也曾想从 L3 级别做起，但是实验发现测试人员一段时间以后很容易相信计算机系统，失去监控的耐心。这个技术路线多半不计成本，采用高清地图和高精密度惯导定位，可没有地图的地方也很难运营（不需要和导航地图接口，直接采用高清地图进行规划，对于大规模导航区域的高清地图下载和全局规划的计算复杂度缺乏认识），安装激光雷达这种最好最昂贵的传感器（当时视觉的深度学习技术比较初级），采用最强的计算平台（因为不是量产，一些 L4 自动驾驶公司直接采用工控机作为支撑，不需要考虑平台移植的工程难度），面向 robotaxi 的落地，虽然还没有针对任意场景，但在测试的高速和城市街道场景中，基于较可靠的感知性能，的确提供了面向复杂交通环境下最强的规划决策能力。目前看到的基于数据驱动开发的规划决策算法，多半来自于 L4 公司，而且其中几个还举办了这方面的竞赛（基于本身提供的开源数据集）。在仿真平台的建设上，也是 L4 公司远远走在前面（特斯拉基本已经具备 L4 开发落地能力），包括数据重放和单点测试的可视化能力。高清地图方面， L4 公司的技术也比较成熟。收集的传感器数据， L4 公司在包括激光雷达和车辆定位轨迹等方面，也高于一般的 L2 公司。

另一条路线是渐进式开发，即先从 L2 级别的辅助自动驾驶系统起步，然后逐渐适应更复杂的交通环境，从高速高架慢慢过渡到有闸道有收费站的场景，然后进入城市大街和小路，自动驾驶系统的级别也慢慢演进到 L2+ 、 L3 、 L3+ 和 L4 水平。注：最近看到一种新趋势，即 L4 自动驾驶级别的开发公司，和 L2 级别自动驾驶的主机厂和 Tier-1 合作，共同开发 L2+ 的量产级别车辆。渐进式开发的技术路线，一般是主机厂和 Tier-1 采用，他们首先会考虑成本、车规和量产用户的 ODD 定义。早先以 mobileye 为主要供应商，之后特斯拉和英伟达的开发模式成为主流。因为成本，所以这种路线多半采用摄像头为主传感器，加上车企已经接受的毫米波雷达为辅助。相对来说，这个路线的前沿水平（比如特斯拉）基本上视觉感知的能力尤其突出。因为在融合中雷达出现大量虚警信号，特斯拉甚至在自动驾驶感知模块中放弃了它。以前泊车自动驾驶采用超声波传感器，逐渐也和鱼眼摄像头结合提供泊车辅助、记忆泊车甚至代客泊车的应用。特斯拉也采用超声波提供拥挤交通场景的感知。也许是成本的压力，渐进路线一般是 “ 重感知、轻高清地图 ” 的模式，甚至特斯拉已经在 BEV 网络模型中实现了感知和在线地图及定位的端到端集成。作为行业领军企业的特斯拉，慢慢完善了数据驱动的开发工具链，实现了一个包括数据筛选、数据标注、仿真模拟、模型迭代、场景测试评估和模型部署等的数据闭环。基于自动驾驶的长尾问题和 AI 模型的不确定问题，谷歌也有类似的框架，但特斯拉将其发挥到极致，在量产的用户车辆上实现了良性循环，目前也已经推出 L4 级别的自动驾驶版本 FSD 。

自动驾驶基本存在 1.0 和 2.0 两个发展阶段。自动驾驶 1.0 时代采用多种传感器构成感知输入，比如激光雷达（ Lidar ）、视觉相机、雷达（ Radar ）、惯导 IMU 、轮速计和 GPS/ 差分 GPS 等，各个传感器在感知能力上存在差异，针对性用多模态传感器融合架构，目前多是采用后融合策略，把各个传感器在相关任务的结果进行一次滤波，达到互补或者冗余的效果。这方面存在两种路线，一是依靠激光雷达加高清地图的做法，成本高，主要是 robotaxi 等 L4 公司采用，另一个是视觉为主、轻高清地图的道路，成本低，多是 L2/L2+ 自动驾驶公司为量产落地的思路。两种路线都是会有很传统的后处理步骤（特别是视觉），大量调试工作和问题也来自于此。另外，这个阶段的规划决策多是采用基于规则的方法，实际上没有数据驱动的模型，比如开源的 Autoware 和百度 Apollo 。 L4 公司由于运行场景在一些具备高清地图的固定地区，本身感知投入的传感器精度较高，已经做过数据训练规划决策模型的探索；相对来说， L2/L2+ 公司还没有建立数据驱动的规划决策模块开发模式，多是采用优化理论的解决方案，普遍从高速场景入手，升级到特斯拉那种 “ 闸道 - 到 - 闸道 ” 的模式，很少能支持城市自动驾驶的复杂场景（比如环岛路口和无保护左拐弯操作等）。

自动驾驶 2.0 时代应该是以数据驱动为标志，同时对于 1.0 阶段的感知框架也有比较大的改进。数据驱动的开发模式倾向于端到端的模型设计和训练，对于规划决策而言就是需要大量的驾驶数据去学习 “ 老司机 ” 的驾驶行为，包括行为克隆的模仿学习，以及通过基于模型强化学习（ M-RL ）估计行为 - 策略的联合分布等，不再靠各种约束条件下的最优问题求解。其中轨迹预测是一个重要的前奏，需要对智体交互行为做良好的建模，并分析存在的不确定性影响。对于感知而言， 2.0 时代需要考虑机器学习模型取代那种传统视觉或信号处理（滤波）的部分，真正做到采集数据来解决问题的开发模式。比如特斯拉最近的 BEV 和 Occupancy Network ，都直接通过深度学习模型实现所需信息输出，而不是采用传统视觉和融合理论去二次处理模型输出。传感器融合理论也从后融合升级到模型中特征级融合甚至数据融合（如果同步和标定有一定的先验知识）。这里可以看到 Transformer 网络在这个感知框架下扮演着重要的角色，同时也给计算平台提出了更高的要求。基于这种数据驱动的自动驾驶平台需求，大模型的设计思路也被引入，因为大量数据的获取，包括高效的数据筛选、自动标注和仿真技术辅助，需要在服务器维护一个老师大模型支持各种布置到车端的学生小模型训练和迭代升级。”

在“ 概论 ”中，对于自动驾驶的场景，作者也进行了总结分级：

自动驾驶的场景，根据难度可以列出如下：

自动 / 自主泊车：自动泊车 APA 、记忆泊车 HPA 和代客泊车 AVP 分属 L2 、 L3 和 L4 级别；最低级的自动泊车是没有车辆控制的，只是提供泊车的建议，如虚拟的参考轨迹； L2 级别会提供停车位检测，并确定规划和控制功能，简单的超声波雷达只是检测一个停车位，而视觉系统可以发现多个停车位， L2 级系统让驾驶员选择其中一个，而 L3 级别会自动选择。
园区摆渡车： L4 级，比如百度 Apollo

自动驾驶新书五一节后将要上市

正文

请到「今天看啥」查看全文