专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
人民网舆情数据中心  ·  重磅发布丨2024年十大消费维权舆情热点 ·  昨天  
人民网舆情数据中心  ·  杨铭宇黄焖鸡就加盟门店食品安全问题道歉、海底 ... ·  2 天前  
人民网舆情数据中心  ·  ​AI大模型接入智能手机带来隐私泄露隐忧,多 ... ·  2 天前  
春江潮起  ·  自查!美妆巨头:发现致癌物!很多人在用 ·  3 天前  
春江潮起  ·  自查!美妆巨头:发现致癌物!很多人在用 ·  3 天前  
51好读  ›  专栏  ›  自动驾驶之心

端到端自动驾驶真的需要感知任务吗?

自动驾驶之心  · 公众号  ·  · 2024-10-07 00:00

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 智加科技最新端到端自动驾驶的工作! 深入剖析了感知任务在端到端中的必要性。 如果您有相关工作需要分享,请在文末联系我们!


自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询


>> 点击进入→ 自动驾驶之心 端到端自动驾驶 技术交流群

论文作者 | Peidong Li

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶(E2EAD)方法通常依赖于监督感知任务来提取明确的场景信息(例如,动静态目标、在线地图)。而这种依赖性需要昂贵的标注数据,并限制了实车部署和数据可扩展性。为此本文介绍了SSR,这是一种全新的框架,只使用16个导航引导标记作为稀疏场景表示,有效地提取了E2EAD的关键场景信息。本文的方法消除了对监督子任务的需要,允许计算资源集中在与导航意图直接相关的基本元素上。进一步引入了一个时间增强模块,该模块采用鸟瞰图(BEV)世界模型,通过自监督将预测的未来场景与实际的未来场景对齐。SSR在nuScenes数据集上实现了最先进的规划性能,与UniAD相比,L2误差相对降低了27.2%,碰撞率降低了51.6%。此外,SSR推理加速了10.9倍,训练加速了13倍。该框架代表了实时自动驾驶系统的重大飞跃,并为未来的可扩展部署铺平了道路。

  • 开源链接:https://github.com/PeidongLi/SSR

总结来说,本文的主要贡献如下:

  • 我们介绍了一种受人类启发的E2EAD框架,该框架利用由导航命令引导的学习稀疏查询表示,通过自适应地关注场景的基本部分,显著降低了计算成本。
  • 我们通过引入BEV世界模型对动态场景变化进行自监督,消除了对昂贵的感知任务监督的需要,强调了时间背景在自动驾驶中的关键作用。
  • 我们的framework在nuScenes数据集上以最小的训练和推理成本实现了最先进的性能,为实时E2EAD建立了新的基准。

相关工作回顾

基于视觉的端到端方案

端到端自动驾驶的研究可以追溯到1988年的ALVINN(Pomerleau,1988),该研究使用了一个简单的神经网络来生成转向输出。NVIDIA开发了一种基于卷积神经网络(CNN)的原型E2E系统,绕过了手动分解。最近基于视觉的E2EAD的复苏是由BEV感知的快速发展和Transformer等现代架构推动的。

ST-P3引入了感知、预测和规划模块的改进,以增强时空特征学习,整合了深度估计和BEV分割等辅助任务。UniAD基于之前的BEV感知工作,创建了一个具有各种辅助任务的级联框架,包括检测、跟踪、映射、占用和运动估计。VAD试图通过矢量化简化场景表示,减少UniAD中的跟踪和占用任务。GenAD探索了使用生成模型生成轨迹,基于VAD联合优化运动和规划头。PARA Drive进一步研究了辅助任务之间的关系,重新组织它们并行运行,同时在推理过程中停用它们。相比之下,我们的方法消除了所有感知任务,在准确性和效率方面都取得了显著的成绩。

自动驾驶中的场景表示

大多数先前在自动驾驶领域的工作都继承了感知任务的方法,如Li等人利用密集的BEV特征作为主要的场景表示。在这些框架中,特定于任务的查询(例如,用于检测和建图)用于在人工标签的监督下从BEV特征中提取信息。虽然这些方法受益于丰富的场景信息,但它们也引入了显著的模型复杂性,阻碍了实时应用,特别是在基于占用的表示中。

遵循BEV检测中稀疏范式的趋势,最近的稀疏E2EAD方法直接利用特定任务的查询与图像特征进行交互。这些方法试图通过特定任务的查询直接与图像特征交互,从而完全绕过BEV特征生成。然而,尽管BEV处理减少了,但这些模型仍然依赖于数百个查询,这降低了端到端范式所承诺的简单性和效率。LAW提出使用视图潜在查询来用单个查询表示每个相机图像。然而,这种方法会损害信息保真度,导致性能欠佳。UAD试图将BEV特征划分为角度方向的扇区,但仍然依赖于开放集检测器标签进行监督,保持了特定任务查询的复杂性。在这项工作中,我们引入了SSR,这是一种新的方法,通过一组最小的自适应学习查询来表示场景,提高了效率和性能。

自动驾驶中的世界模型

世界模型因其生成能力而在自动驾驶领域受到关注,尤其是近年来。世界模型的重要性在于生成丰富的训练数据,包括罕见的角点情况,正如Hu等人等早期作品所证明的那样。最近,世界模型已被集成到E2EAD框架中,以提高其性能。例如,Drive WM采用扩散模型来预测多视图视频,并将这些预测用于规划。OccWorld同时预测规划轨迹和占用图,而DriveWorld使用占用世界模型进行预训练,需要昂贵的注释。LAW引入了一个潜在世界模型来改进E2EAD训练。在我们的工作中,我们提出了一个为稀疏场景表示量身定制的BEV世界模型,有效地编码时间上下文以提高E2EAD性能。

方法详解

本文提出的方法框架图入下所示:

导航引导下的场景token学习器

BEV特征是一种流行的场景表示,因为它们包含丰富的感知信息。然而,这种密集的表示增加了搜索相关感知元素时的推理时间。为了解决这个问题,我们引入了一种使用自适应空间注意力的稀疏场景表示,在保持高保真场景理解的同时显著降低了计算负荷。

具体来说,我们提出了场景令牌学习器(STL)模块,用于从BEV特征中提取场景查询,以有效地表示场景。Scenes TokenLearner的结构如图4所示。为了更好地关注与导航意图相关的场景信息,我们采用挤压和激励(SE)层将导航命令cmd编码为密集的BEV特征,从而输出导航感知BEV特征:

然后将导航感知BEV特征传递给BEV TokenLearner模块TLBEV,以自适应地关注最重要的信息。与TokenLearner在图像或视频领域的先前应用不同,我们在BEV空间中利用它通过空间注意力来推导稀疏场景表示:







请到「今天看啥」查看全文