点击下方
卡片
,关注“
自动驾驶之心
”公众号
今天自动驾驶之心为大家分享
智加科技最新端到端自动驾驶的工作!
深入剖析了感知任务在端到端中的必要性。
如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>
点击进入→
自动驾驶之心
『
端到端自动驾驶
』
技术交流群
论文作者
| Peidong Li
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
端到端自动驾驶(E2EAD)方法通常依赖于监督感知任务来提取明确的场景信息(例如,动静态目标、在线地图)。而这种依赖性需要昂贵的标注数据,并限制了实车部署和数据可扩展性。为此本文介绍了SSR,这是一种全新的框架,只使用16个导航引导标记作为稀疏场景表示,有效地提取了E2EAD的关键场景信息。本文的方法消除了对监督子任务的需要,允许计算资源集中在与导航意图直接相关的基本元素上。进一步引入了一个时间增强模块,该模块采用鸟瞰图(BEV)世界模型,通过自监督将预测的未来场景与实际的未来场景对齐。SSR在nuScenes数据集上实现了最先进的规划性能,与UniAD相比,L2误差相对降低了27.2%,碰撞率降低了51.6%。此外,SSR推理加速了10.9倍,训练加速了13倍。该框架代表了实时自动驾驶系统的重大飞跃,并为未来的可扩展部署铺平了道路。
-
开源链接:https://github.com/PeidongLi/SSR
总结来说,本文的主要贡献如下:
-
我们介绍了一种受人类启发的E2EAD框架,该框架利用由导航命令引导的学习稀疏查询表示,通过自适应地关注场景的基本部分,显著降低了计算成本。
-
我们通过引入BEV世界模型对动态场景变化进行自监督,消除了对昂贵的感知任务监督的需要,强调了时间背景在自动驾驶中的关键作用。
-
我们的framework在nuScenes数据集上以最小的训练和推理成本实现了最先进的性能,为实时E2EAD建立了新的基准。
相关工作回顾
基于视觉的端到端方案
端到端自动驾驶的研究可以追溯到1988年的ALVINN(Pomerleau,1988),该研究使用了一个简单的神经网络来生成转向输出。NVIDIA开发了一种基于卷积神经网络(CNN)的原型E2E系统,绕过了手动分解。最近基于视觉的E2EAD的复苏是由BEV感知的快速发展和Transformer等现代架构推动的。
ST-P3引入了感知、预测和规划模块的改进,以增强时空特征学习,整合了深度估计和BEV分割等辅助任务。UniAD基于之前的BEV感知工作,创建了一个具有各种辅助任务的级联框架,包括检测、跟踪、映射、占用和运动估计。VAD试图通过矢量化简化场景表示,减少UniAD中的跟踪和占用任务。GenAD探索了使用生成模型生成轨迹,基于VAD联合优化运动和规划头。PARA Drive进一步研究了辅助任务之间的关系,重新组织它们并行运行,同时在推理过程中停用它们。相比之下,我们的方法消除了所有感知任务,在准确性和效率方面都取得了显著的成绩。
自动驾驶中的场景表示
大多数先前在自动驾驶领域的工作都继承了感知任务的方法,如Li等人利用密集的BEV特征作为主要的场景表示。在这些框架中,特定于任务的查询(例如,用于检测和建图)用于在人工标签的监督下从BEV特征中提取信息。虽然这些方法受益于丰富的场景信息,但它们也引入了显著的模型复杂性,阻碍了实时应用,特别是在基于占用的表示中。
遵循BEV检测中稀疏范式的趋势,最近的稀疏E2EAD方法直接利用特定任务的查询与图像特征进行交互。这些方法试图通过特定任务的查询直接与图像特征交互,从而完全绕过BEV特征生成。然而,尽管BEV处理减少了,但这些模型仍然依赖于数百个查询,这降低了端到端范式所承诺的简单性和效率。LAW提出使用视图潜在查询来用单个查询表示每个相机图像。然而,这种方法会损害信息保真度,导致性能欠佳。UAD试图将BEV特征划分为角度方向的扇区,但仍然依赖于开放集检测器标签进行监督,保持了特定任务查询的复杂性。在这项工作中,我们引入了SSR,这是一种新的方法,通过一组最小的自适应学习查询来表示场景,提高了效率和性能。
自动驾驶中的世界模型
世界模型因其生成能力而在自动驾驶领域受到关注,尤其是近年来。世界模型的重要性在于生成丰富的训练数据,包括罕见的角点情况,正如Hu等人等早期作品所证明的那样。最近,世界模型已被集成到E2EAD框架中,以提高其性能。例如,Drive WM采用扩散模型来预测多视图视频,并将这些预测用于规划。OccWorld同时预测规划轨迹和占用图,而DriveWorld使用占用世界模型进行预训练,需要昂贵的注释。LAW引入了一个潜在世界模型来改进E2EAD训练。在我们的工作中,我们提出了一个为稀疏场景表示量身定制的BEV世界模型,有效地编码时间上下文以提高E2EAD性能。
方法详解
本文提出的方法框架图入下所示:
导航引导下的场景token学习器
BEV特征是一种流行的场景表示,因为它们包含丰富的感知信息。然而,这种密集的表示增加了搜索相关感知元素时的推理时间。为了解决这个问题,我们引入了一种使用自适应空间注意力的稀疏场景表示,在保持高保真场景理解的同时显著降低了计算负荷。
具体来说,我们提出了场景令牌学习器(STL)模块,用于从BEV特征中提取场景查询,以有效地表示场景。Scenes TokenLearner的结构如图4所示。为了更好地关注与导航意图相关的场景信息,我们采用挤压和激励(SE)层将导航命令cmd编码为密集的BEV特征,从而输出导航感知BEV特征:
然后将导航感知BEV特征传递给BEV TokenLearner模块TLBEV,以自适应地关注最重要的信息。与TokenLearner在图像或视频领域的先前应用不同,我们在BEV空间中利用它通过空间注意力来推导稀疏场景表示: