首先端到端自动驾驶的定义基本上大家明确了是指从传感器输入开始到规划甚至控制信号输出(马斯克所说Photon to Control)中间所有的步骤都是端到端可导,这样整个系统可以作为一个大模型进行梯度下降的训练,通过梯度反向传播可以在模型训练期间对模型从输入到输出之间的全部环节进行参数更新优化,从而能够针对用户直接感知到的驾驶决策轨迹,优化整个系统的驾驶行为。而最近一些友商在宣传端到端的自动驾驶的过程中声称自己是端到端感知,或者端到端的决策,但这二者其实我认为都不能算作是端到端的自动驾驶,而只能被称作纯数据驱动的感知和纯数据驱动的决策规划。
甚至有的人将模型出决策,再结合传统方法来做安全校验和轨迹优化的混合策略也叫做端到端规划,另外也有说法认为Tesla V12并不是纯粹的模型输出控制信号,应该也是结合了一些规则方法的混合策略,根据就是http://X.com上的著名Tesla黑客Green前段时间发过一条twitter称在V12技术栈里还是能够发现规则的代码。对此我的理解是Green发现的代码很可能是V12高速技术栈保留的V11版本代码,因为我们知道目前V12其实只是用端到端替换了原本城市技术栈,高速仍旧会切回V11的方案,因此在破解的代码中找到一些规则代码的只言片语并不代表V12是假“端到端”而是找到的很可能是高速的代码。实际上我们从2022年的AI Day上就可以看出,V11及以前的版本已经是混合方案,因此V12如果不是彻底的模型直出轨迹,那么方案上就和之前的版本没有什么本质的区别了,如果是这样V12的性能跳跃性提升又没办法合理的解释了。关于Tesla之前的方案可以参考我的AI Day解读EatElephant:Tesla AI Day 2022 - 万字解读:堪称自动驾驶春晚,去中心化的研发团队,野心勃勃的向AI技术公司转型。
从2022年AI Day上来看,V11已经是混合了NN Planner的规划方案
UniAD成为2023年CVPR Best Paper无疑代表了学术界对端到端的自动驾驶系统寄予的厚望。从2021年Tesla介绍了其视觉BEV感知技术的创新后,国内学术界在自动驾驶BEV感知方面投入了非常大的热情,并诞生了一些列研究,推动了BEV方法的性能优化和落地部署,那么端到端是否也能走一条类似的路线,由学术界引领,产业界跟随从而推动端到端技术在产品上的快速迭代落地呢?我认为是比较难的。首先BEV感知还是一个相对模块化的技术,更多是算法层面,且入门级性能对数据量的需求没有那么高,高质量的学术开源数据集Nuscenes的推出为很多BEV研究提供了便利的前置条件,在Nuscenes上迭代的BEV感知方案虽然无法达到产品级性能要求,但是作为概念验证和模型选型,是具有很大借鉴价值的。然而学术界缺乏大规模的端到端可用数据。目前最大规模的Nuplan数据集包含了4个城市1200小时的实车采集数据,然而在2023年的一次财报会议上,Musk表示对于端到端的自动驾驶“训练了100万个视频case,勉强可以工作;200万个,稍好一些;300万个,就会感到Wow;到了1000万个,它的表现就变得难以置信了”。Tesla的Autopilot回传数据普遍认为是1min的片段,那么入门级别的100w视频case大概就是16000小时,比最大的学术数据集至少多一个数量级以上,这里还是要注意nuplan是连续采集数据,因此在数据的分布和多样性上有着致命的缺陷,绝大多数数据都是简单场景,这也就意味着使用nuplan这样的学术数据集甚至无法获得一个能够勉强上车的版本。
Nuplan数据集已经是非常巨大规模的学术数据集,然而作为端到端方案的探索可能还远远不够