性能跃迁15%！开环端到端SOTA新突破：分合驱动下的运动-语义联合学习框架~

自动驾驶之心 · 公众号 · · 2025-02-17 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 卡尔斯鲁厄理工学院等团队提出的最新的工作！ DMAD：端到端自动驾驶中运动与语义学习的新突破 — 解决多任务负迁移难题。 如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『端到端』 技术交流群

论文作者 | Yinzhe Shen等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

感知环境及其随时间的变化，涉及两种基本但性质不同的信息类型：语义信息和运动信息。以往的端到端自动驾驶研究，将这两种信息都表示在单个特征向量中。然而包含预测和规划等运动任务，往往会损害检测和跟踪性能，这种现象在多任务学习中被称为负迁移。为解决这一问题，我们提出了神经贝叶斯运动解码（Neural-Bayes motion decoding）方法，这是一种新颖的并行检测、跟踪和预测方法，它将语义学习和运动学习分离，类似于贝叶斯滤波器。具体来说，我们采用一组学习得到的运动查询，与检测和跟踪查询并行运行，并共享一组统一的递归更新参考点。此外，我们使用交互式语义解码，来增强语义任务中的信息交换，促进正迁移。在 nuScenes 数据集上的实验表明， 该方法在检测性能上提升了5%，跟踪性能上提升了 11%。 在不对规划模块做任何修改的情况下，我们的方法在开环规划评估中，实现了当前最优的碰撞率。

论文链接：https://arxiv.org/abs/2502.07631

简介

模块化端到端（E2E）自动驾驶（AD）正受到越来越多的关注，因为它结合了传统流水线方法和严格端到端方法的优点。模块化端到端框架本质上是一个多任务学习挑战。人们期望各种任务能够相互补充，共同提高整个系统的性能。然而设计不佳的多任务学习结构，不仅无法促进相互学习，还可能对单个任务产生不利影响，这种现象被称为负迁移。目前流行的模块化端到端方法通常采用顺序结构（图 1a）。这种结构符合人类在执行驾驶任务时的思维方式，并且在规划性能方面表现出良好的前景。然而，这些方法在目标检测和跟踪方面存在负迁移现象。换句话说，联合训练的端到端模型的感知性能，通常不如那些未进行运动预测和规划任务训练的模型。

我们通过研究学习到的异构信息类型（语义信息和运动信息），分析负迁移的潜在原因。语义信息包括周围物体的类别、车道、路口等，而运动信息描述了环境中随时间发生的变化。顺序方法依次执行这两个过程，首先进行检测和跟踪，然后利用表示物体的特征进行轨迹预测。这种顺序设计迫使特征包含运动信息，损害了最初学习到的语义信息，从而导致感知的负迁移。另一种结构，如图 1b 所示，通过不同的头并行执行大多数任务，例如PARA-Drive和NMP。然而，由于检测和预测仍然是顺序进行的，负迁移问题依然存在。

在这项工作中，我们提出了 DMAD 结构（图 1c），即用于端到端自动驾驶的运动和语义学习的分离与融合。DMAD 通过分离语义学习和运动学习，解决了负迁移问题。此外，它通过融合语义任务，利用了语义任务之间的相关性。

在分离方面，我们提出了神经贝叶斯运动解码器。我们保留一组运动查询，这些查询与目标（检测和跟踪）查询并行地关注鸟瞰图（BEV）特征。运动查询和目标查询的关键区别在于，运动查询被解码为过去和未来的轨迹，而不是带有类别的边界框。运动查询和目标查询共享一组参考点，这些参考点由检测和预测递归更新。这使得两种类型的查询之间，仅通过参考点进行有限的信息交换，且没有梯度流动。此外，我们使用有限差分法，根据预测轨迹计算物体的速度，从而消除了目标查询直接学习速度的需求。通过这种方式，目标查询专注于学习语义和外观特征，而运动查询则专门用于捕捉运动特征。两种类型的异构信息，沿着不同的路径分别学习，有效地防止了负迁移。值得注意的是，据我们所知，DMAD 结构首次将运动学习提升到与语义学习同等的水平，将检测、跟踪和预测视为并发任务。

在融合方面，我们提出了交互式语义解码器，以增强检测和地图分割中语义信息的交换。目标感知和地图感知本质上是相关的任务。以往的方法常常忽略这种联系，通常沿着并行路径执行这两个任务。DualAD 利用了这种相关性，但只允许目标感知从地图中学习。我们的方法使用逐层迭代自注意力机制，实现目标任务和地图任务之间的相互学习，促进正迁移。

基于 UniAD，在 nuScenes 数据集上进行的实验，展示了DMAD结构在减轻负迁移方面的有效性。我们的方法在感知和预测方面，取得了显著的性能提升。在不修改规划模块的情况下，我们展示了改进的感知和预测，如何在开环评估中使规划受益，实现了当前最优的碰撞指标。

总结来说，我们的主要贡献总结如下：

提出了 DMAD，这是一种模块化的端到端自动驾驶范式，它根据任务应学习的信息，对任务进行分离和融合。这种设计消除了不同类型任务之间的负迁移，同时加强了相似任务之间的正迁移。
引入了神经贝叶斯运动解码器，与目标检测和跟踪同时进行轨迹预测，并引入了交互式语义解码器，以增强目标感知和地图感知之间的信息共享。
在nuScenes数据集上，验证了基于 UniAD 的方法的有效性。它在感知和预测结果上有所改进，并在开环规划中实现了当前最优的碰撞率。

详解DMAD方法

图2展示了 DMAD 结构的概述，它基于UniAD构建。从多视角相机图像中提取BEV特征，该特征是所有任务（包括检测、跟踪、建图、预测和规划）的共享特征。我们初始化三种不同类型的查询 —— 目标查询、地图查询和运动查询，它们通过关注 BEV 特征来提取各自任务所需的特定信息。基于所学信息的类型，解码过程分为两条路径。一方面，目标和地图解码在交互式语义解码器中联合执行，在每个解码层，这两种类型的查询会迭代地交换潜在语义信息。

另一方面，运动查询在神经贝叶斯运动解码器中从 BEV 特征中提取运动信息。每个运动查询都直接对应一个目标查询。在每个解码层，运动查询使用目标的坐标作为参考点。解码每一帧后，运动查询预测的未来路径点将作为下一帧中目标查询的参考点。这种递归结构类似于贝叶斯滤波器的行为。参考点的交换始终不涉及梯度。最后运动查询被传递到规划模块。该系统是完全端到端可训练的，运动和语义梯度在不同路径中传播。

交互式语义解码器

以往的研究基本上将目标检测和地图感知视为独立的任务。然而，目标和地图元素之间存在相关性。例如，车辆的位置极有可能在可行驶区域内，并且车道上汽车的方向很可能与车道方向一致。为了利用这种语义相关性，我们引入了交互式语义解码器。与 DualAD 中的单向交互不同，我们的方法实现了信息的双向交换。

我们初始化一组目标查询和一组地图查询。查询的数量可能不同，但维度 d 必须相同。每个解码层首先将两种类型的查询连接起来，然后应用自注意力机制，使两个任务能够交换语义信息。随后，将两种类型的查询分开，各自对BEV特征执行自注意力和交叉注意力操作，如图3所示。

在交互式语义解码之后，我们按照 Panoptic Segformer的方式，将地图查询解码为密集表示。每个目标查询被分类为一个类别 c，并回归为一个向量。每个目标查询都与一个参考点相关联。目标查询不是直接学习目标的绝对坐标，而是学习相对于其相应参考点的偏移量。因此，边界框可以表示为。值得注意的是，速度不进行回归，因为它属于运动信息。我们设计目标查询仅专注于语义信息，即目标的类别、中心点、大小和方向。

神经贝叶斯运动解码器

运动指的是语义随时间的变化。安全舒适的驾驶要求自动驾驶系统理解环境变化并预测未来发展，从而做出相应决策。对于当前的模块化端到端系统，运动任务指的是轨迹预测和运动规划。我们引入一种与语义解码器并行运行的新型运动解码器，旨在完全解耦运动和语义学习，以减少语义任务的负迁移。考虑到运动和语义之间的相关性，我们设计了一个递归过程，类似于贝叶斯滤波器，促进两个解码器之间人类可读信息的交换。

贝叶斯滤波器 ：作为铺垫，我们先简要介绍一下贝叶斯滤波器。贝叶斯滤波器根据过程模型和有噪声的测量值来估计未知分布。其公式如下：

其中x表示状态，z表示测量值，下标表示时间步。贝叶斯滤波器的任务是在给定从时间步 1 到 t 的所有测量值

性能跃迁15%！开环端到端SOTA新突破：分合驱动下的运动-语义联合学习框架~

正文

写在前面 & 笔者的个人理解

简介

相关工作

详解DMAD方法

交互式语义解码器

神经贝叶斯运动解码器

请到「今天看啥」查看全文