端到端自动驾驶真的需要感知任务吗？

自动驾驶之心 · 公众号 · · 2024-10-07 00:00

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 智加科技最新端到端自动驾驶的工作！ 深入剖析了感知任务在端到端中的必要性。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『端到端自动驾驶』 技术交流群

论文作者 | Peidong Li

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶（E2EAD）方法通常依赖于监督感知任务来提取明确的场景信息（例如，动静态目标、在线地图）。而这种依赖性需要昂贵的标注数据，并限制了实车部署和数据可扩展性。为此本文介绍了SSR，这是一种全新的框架，只使用16个导航引导标记作为稀疏场景表示，有效地提取了E2EAD的关键场景信息。本文的方法消除了对监督子任务的需要，允许计算资源集中在与导航意图直接相关的基本元素上。进一步引入了一个时间增强模块，该模块采用鸟瞰图（BEV）世界模型，通过自监督将预测的未来场景与实际的未来场景对齐。SSR在nuScenes数据集上实现了最先进的规划性能，与UniAD相比，L2误差相对降低了27.2%，碰撞率降低了51.6%。此外，SSR推理加速了10.9倍，训练加速了13倍。该框架代表了实时自动驾驶系统的重大飞跃，并为未来的可扩展部署铺平了道路。

开源链接：https://github.com/PeidongLi/SSR

总结来说，本文的主要贡献如下：

我们介绍了一种受人类启发的E2EAD框架，该框架利用由导航命令引导的学习稀疏查询表示，通过自适应地关注场景的基本部分，显著降低了计算成本。
我们通过引入BEV世界模型对动态场景变化进行自监督，消除了对昂贵的感知任务监督的需要，强调了时间背景在自动驾驶中的关键作用。
我们的framework在nuScenes数据集上以最小的训练和推理成本实现了最先进的性能，为实时E2EAD建立了新的基准。

相关工作回顾

基于视觉的端到端方案

端到端自动驾驶的研究可以追溯到1988年的ALVINN（Pomerleau，1988），该研究使用了一个简单的神经网络来生成转向输出。NVIDIA开发了一种基于卷积神经网络（CNN）的原型E2E系统，绕过了手动分解。最近基于视觉的E2EAD的复苏是由BEV感知的快速发展和Transformer等现代架构推动的。

ST-P3引入了感知、预测和规划模块的改进，以增强时空特征学习，整合了深度估计和BEV分割等辅助任务。UniAD基于之前的BEV感知工作，创建了一个具有各种辅助任务的级联框架，包括检测、跟踪、映射、占用和运动估计。VAD试图通过矢量化简化场景表示，减少UniAD中的跟踪和占用任务。GenAD探索了使用生成模型生成轨迹，基于VAD联合优化运动和规划头。PARA Drive进一步研究了辅助任务之间的关系，重新组织它们并行运行，同时在推理过程中停用它们。相比之下，我们的方法消除了所有感知任务，在准确性和效率方面都取得了显著的成绩。

自动驾驶中的场景表示

大多数先前在自动驾驶领域的工作都继承了感知任务的方法，如Li等人利用密集的BEV特征作为主要的场景表示。在这些框架中，特定于任务的查询（例如，用于检测和建图）用于在人工标签的监督下从BEV特征中提取信息。虽然这些方法受益于丰富的场景信息，但它们也引入了显著的模型复杂性，阻碍了实时应用，特别是在基于占用的表示中。

遵循BEV检测中稀疏范式的趋势，最近的稀疏E2EAD方法直接利用特定任务的查询与图像特征进行交互。这些方法试图通过特定任务的查询直接与图像特征交互，从而完全绕过BEV特征生成。然而，尽管BEV处理减少了，但这些模型仍然依赖于数百个查询，这降低了端到端范式所承诺的简单性和效率。LAW提出使用视图潜在查询来用单个查询表示每个相机图像。然而，这种方法会损害信息保真度，导致性能欠佳。UAD试图将BEV特征划分为角度方向的扇区，但仍然依赖于开放集检测器标签进行监督，保持了特定任务查询的复杂性。在这项工作中，我们引入了SSR，这是一种新的方法，通过一组最小的自适应学习查询来表示场景，提高了效率和性能。

自动驾驶中的世界模型

世界模型因其生成能力而在自动驾驶领域受到关注，尤其是近年来。世界模型的重要性在于生成丰富的训练数据，包括罕见的角点情况，正如Hu等人等早期作品所证明的那样。最近，世界模型已被集成到E2EAD框架中，以提高其性能。例如，Drive WM采用扩散模型来预测多视图视频，并将这些预测用于规划。OccWorld同时预测规划轨迹和占用图，而DriveWorld使用占用世界模型进行预训练，需要昂贵的注释。LAW引入了一个潜在世界模型来改进E2EAD训练。在我们的工作中，我们提出了一个为稀疏场景表示量身定制的BEV世界模型，有效地编码时间上下文以提高E2EAD性能。

方法详解

本文提出的方法框架图入下所示：

导航引导下的场景token学习器

BEV特征是一种流行的场景表示，因为它们包含丰富的感知信息。然而，这种密集的表示增加了搜索相关感知元素时的推理时间。为了解决这个问题，我们引入了一种使用自适应空间注意力的稀疏场景表示，在保持高保真场景理解的同时显著降低了计算负荷。

具体来说，我们提出了场景令牌学习器（STL）模块，用于从BEV特征中提取场景查询，以有效地表示场景。Scenes TokenLearner的结构如图4所示。为了更好地关注与导航意图相关的场景信息，我们采用挤压和激励（SE）层将导航命令cmd编码为密集的BEV特征，从而输出导航感知BEV特征：

然后将导航感知BEV特征传递给BEV TokenLearner模块TLBEV，以自适应地关注最重要的信息。与TokenLearner在图像或视频领域的先前应用不同，我们在BEV空间中利用它通过空间注意力来推导稀疏场景表示：