专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

奔驰提出自动驾驶新视角，DualAD 方法在 nuScenes 基准上的时间一致性与动态建模突破！

智驾实验室 · 公众号 · · 2024-06-18 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

当前自动驾驶领域的最先进方法是将整体驾驶任务中的多个子任务整合到一个单一的 Pipeline 中，通过在不同模块间传递潜在表示，可以端到端地进行训练。与之前依赖于统一网格来表示场景信念状态的方法不同，作者提出了专门的表示方法来分离动态代理和静态场景元素。这使作者能够明确补偿连续时间步之间自我运动和目标运动的影响，并通过时间灵活地传播信念状态。

此外，动态目标不仅可以关注输入的相机图像，还可以通过一种新颖的动态-静态交叉关注机制直接从推理的静态场景结构中受益。在具有挑战性的nuScenes基准上的大量实验证明了作者提出的双流设计的优势，特别是在建模场景中高度动态的代理方面，并突显了作者方法在时间一致性上的改进。

作者名为DualAD的方法不仅在所有沿驾驶功能链的任务上超过了独立训练的单任务网络，而且相比于之前的最先进的端到端模型也有大幅提升。

1 Introduction

自主系统已从严格的模块化和大面积手工艺流程演变为更加整体的学习中心范式[3, 25]。前者依赖于模块之间明确定义的接口，而后者则以端到端的方式处理整个驾驶任务。尽管如此，最近的工作显示，在保持模块化结构的同时，包括诸如感知、预测和规划等典型子任务，并允许潜在特征作为模块之间的接口，这样做是有益的[10, 11]。

图1：统一基于网格的方法与作者的双流设计的 表示设计比较 。通过明确分离动态和静态表示，动态流可以聚集高度描述性的特征。这是通过对图像特征的直接关注以及明确补偿物体和自我运动来实现的，这在统一网格中是不可行的。

与具有固定预定义接口的独立、特定任务模块相比，端到端方法能够联合优化整个流水线，不仅学习每个模块中的参数，还学习模块之间的接口。每个模块的潜在表示所选择的空间限制了可以学习的接口集合，从而允许对场景结构进行归纳偏置建模，例如动态元素的连贯运动，或者融入特定于任务的属性。然而，这增加了选择合适中间表示的重要性，因为它们极大地影响了信息流和后续模块的性能。因此，这些表示应该精心设计，以对应驾驶场景中的相应语义实体，以实现高性能的端到端架构。为了在场景中建模动态代理，一种流行的方法是利用以目标为中心的 Query 来检测环境中的单个目标。此外，最近的工作[7, 30, 36]证明了融入时间信息以一致地建模目标动态并考虑时间遮挡的好处。在这类工作中，目标 Query 提供专用的潜在表示，每个表示描述一个单一目标。然后可以通过在两个连续时间戳之间明确补偿自我和估计的目标运动来传播其信念状态[7, 30]。

最常见的替代方法是使用鸟瞰图（BEV）网格 Query 作为中间表示，后续任务仅依赖于此表示。然而，这种网格并不与语义实例耦合，而是代表场景的一个空间区域。因此，不能明确地建模和补偿代理的运动，见图1。这是由于每个网格单元可能代表具有不同刚体运动变换的多个实体，甚至完全静态的元素，这取决于网格分辨率和目标大小。尽管基于网格的表示适合于静态世界感知[14, 16]，但仅依赖它们来聚合传感器测量和时间信息会阻碍对高度动态代理的感知。

贡献： 在这项工作中，作者提出了一种双流方法，以利用目标中心表示在动态代理方面的潜力，并结合BEV网格表示用于静态场景元素。这种双流设计明确地对动态代理应用目标和自我运动补偿，并允许目标 Query 和BEV Query 同时关注当前时间戳的摄像机图像。除了自我关注和与摄像机图像的交叉关注外，作者还引入了一个新的动态-静态交叉关注块，允许目标 Query 关注BEV Query ，促进流之间的连贯性。

作者提出的方法称为DualAD，能够实现健壮和时序一致的感知。在具有挑战性的nuScenes数据集[1]上，DualAD在多个感知任务上大幅超越专门的 最先进 （SOTA）模型。与最近的端到端框架的整合表明，分离表示对于动态代理和静态世界元素的重要性，并在整个功能链上显示出显著的性能提升。广泛的消融研究强调了双流设计对所有驾驶任务的重要性，尤其是在提高时间一致性和对高度动态代理的感知方面。

2 Related Work

精确且一致的感知构成了自动驾驶的基础。作者将相关文献分为三个类别：

（i）针对动态代理的专用模型，进行3D目标检测和3D多目标跟踪；

（ii）对静态场景元素进行推理并进行在线映射的模型；

（iii）多任务端到端模型，在一个单一模型中联合执行上述任务，并可以进行端到端优化。

动态代理的感知： 基于开创性工作[2, 32]，最近的针对3D目标检测的专用模型采用了基于 Transformer 的架构，通过一组目标 Query 来检测场景中的目标[6, 14, 18, 33]。已经提出了几项扩展，例如减少内存占用和提高收敛速度，从而提高了整体性能[13, 38]。通过 Query 传播结合时间信息来感知动态代理，可以实现隐式跟踪[14, 24, 30]，并结合各种跟踪检测方法[29, 34]，或者通过关注跟踪[7, 36]。对于这种 Query 传播，遵循以目标为中心的范例至关重要。这允许通过直接在目标 Query 和传感器测量之间执行关注来为每个目标聚合描述性特征，并明确补偿连续时间步骤之间目标的移动[7, 30]。

另一项工作利用了中间的鸟瞰图（BEV） Query 网格通过时间传播信息[10, 11, 14]。在这种方法中，每个BEV Query 总是代表网格中的同一区域，并不与特定的语义元素耦合。然后使用关注此网格的 Query 检测动态代理。然而，由于无法直接在网格中补偿动态代理的运动，作者选择在双流设计中以目标为中心的方法来模拟动态代理。

静态场景元素的感知： 受到最近关于2D全景分割的工作[15]的启发，目前执行在线地图分割的工作依赖于与 Transformer 解码器架构相结合的BEV网格 Query 来进行BEV地图分割[10, 14]。

另一类方法试图以向量化的方式建模地图感知任务，其中地图元素直接作为点的序列进行建模，例如通过利用地图 Query [16, 19, 28]。由于这两种变体都依赖于时间BEV网格以实现时间上的一致性能，作者遵循这个概念来感知静态世界。

多任务端到端模型： 最近，不同的方法[10, 11]提出将驾驶任务建模为可端到端训练的模块化 Pipeline 。这允许针对最终驾驶任务优化各个模块及其接口。模块通常通过 Transformer 机制连接，有效地定义了 Query 、键和值三元组的接口。

受到上述工作的启发，作者提出了一个双流 Transformer ，可以作为各种感知任务的基础，也适用于端到端多任务驾驶。作者同时使用以目标为中心的 Query 来表示场景中的动态代理，同时使用BEV网格 Query 建模静态场景元素。这明确地将静态和动态元素在场景中的表示分离，特别是对于高度动态的代理，从而提高了时间上的连贯性。由此产生的架构结合了动态目标感知以及静态感知的SOTA方法的潜力，在单一模型中，可以直接与最近的多任务模型集成，以端到端训练整个堆栈。

3 Method

如图2a所示，作者提出的方法DualAD包含了一个基于 Transformer 解码器的感知架构，该架构使用两个流分别以目标中心的方式明确建模动态目标和以网格方式处理静态场景元素。生成的动态和静态世界表示使诸如3D目标检测和跟踪、地图分割、运动预测以及规划等与驾驶相关的各种任务成为可能。此外，作者的方法允许对整个驾驶堆栈进行端到端优化，如[10, 11]中所述。

在每一个时间步，一组个多视角相机图像被输入到一个共享的图像特征提取器中。得到的图像特征被动态目标流和静态流两者使用。前者关于场景中的动态代理进行推理，如汽车或行人。这些代理由一组目标 Query 表示，可以解码为边界框以及代理的预测类别。同时，一个具有维度的BEV Query 网格使用对静态场景进行推理。得到的BEV表示用于执行道路拓扑的全景分割，例如可行驶空间或车道标记，使用如[10, 15]中提出的分割头。

通过新颖的动态-静态交叉注意力块（见图2b）实现两个流之间的交互，其中目标 Query 关注代表静态场景结构的BEV Query 。由于动态和静态世界的时态表示是解耦的，作者可以明确地为动态代理的目标中心 Query 补偿目标和自我运动，而静态BEV Query 只需依赖于自我车辆运动的传播。

Dual Stream Design for End-to-End Driving

为场景的信念状态找到合适的表征是如第1节所述的基于 Transformer 的端到端可训练驾驶堆栈的关键。与传统的流水线相比，端到端范式允许接口针对流水线中后续模块进行优化。然而，所选择的潜在表征空间严重影响着对相关语义实体及其关系的建模能力[11, 30]。

虽然统一的鸟瞰图（BEV）网格表征可以适当地处理静态内容，但在BEV网格中表征高度动态的物体是病态的，因为每个单元格可能描述具有不同运动模式的多个实体、静态场景元素，甚至是两者的组合。因此，作者认为动态物体和静态场景内容应该分别表征，并提出了一种由动态流和静态流组成的双流架构。

动态流： 在DualAD中，动态物体通过以物体为中心的表征来建模，使用单个物体 Query 来描述场景中的单个物体[6, 7, 18, 30, 32]。为了获得高度描述性的表征，作者建议每个物体 Query 应直接对图像特征执行交叉关注。与那些只有BEV网格 Query 直接关注图像的统一方法[10, 11, 14]相比，这使得可以利用图像特征的高空间分辨率来进行更精确的检测和跟踪。

遵循[7, 30]中的论点，作者建议通过补偿两个时间戳之间的运动，通过依赖于几何运动的潜在变换来将潜在 Query 传播到下一个时间戳。与静态场景部分相比，物体的观察运动由两个独立的部分组成：(1) 自车运动和(2) 动态物体本身的运动。关于 Query 传播的更多细节，作者请读者参考[7, 30]。

具体来说，作者的方法使用每个时间步的top-k传播物体 Query 作为后续帧中的先验，遵循Stream-PETR[30]中的隐式跟踪方法来处理暂时遮挡，并在场景中一致地跟踪物体。与跟踪-by-注意力[7, 10, 36]方法（其中只有匹配的物体被传播到下一帧）相比，这允许作者的模型为同一个物体保持多个假设，并且不需要显式的轨迹处理。为了获得显式的物体身份，作者的模型可以与任何跟踪-by-检测方法结合使用。

静态流： 作者使用基于BEV网格的表征来建模静态场景元素。密集的、空间规则化的表征适用于周围区域的非移动物体。由于假设网格中的所有元素都是静态的，因此通过应用从自车运动计算出的刚性变换来随时间更新网格。作者通过差分插值方式采样网格特征，并使用[14]中提出的可变形时间网格注意力。然后使用仅解码器的分割头[15, 16]进行地图分割。与统一网格方法相比，这显著简化了地图分割头，因为那些方法通常需要额外的网格编码器[10, 14]。

Modelling Interactions between the Dynamic and Static World

显式地将动态代理和静态场景元素分离，导致模型分为两个独立的流。这两个流都依赖于共享的图像特征，但分别对这些特征执行自关注和跨关注。为了使网络能够利用静态场景元素和动态代理之间的互信息，作者提出了一个额外的关注块，在流之间执行动态-静态跨关注。

如图1(b)所示，这是通过对当前时间戳的目标 Query 和接近目标位置的BEV Query 之间执行可变形注意力[38]来实现的[14]。这样做，动态目标可以通过考虑不仅传感器信息，还包括聚合的静态BEV网格（例如，融入关于道路布局和车道拓扑的估计信息）来更精确地推理它们的状态更新。

通过空间和时间传播可移动的信念状态： 作者的双流设计使得甚至可以整合不同步的传感器输入。每当有传感器信息可用时，可能在任意时间间隔内，静态和动态部分的信念状态可以考虑到自身和目标运动传播到那个时间戳。然后，新的传感器数据通过跨关注到可用的图像特征，轻松地整合以更新推理的场景状态。

因此，作者的方法便于在不同时间点整合传感器测量，同时保持场景的时序一致性表示。作者的模型还可以处理在每个时间步骤传感器集合变化的情况。这对于不同感知速率或甚至传感器故障的非同步传感器尤其重要。此外，这还使得可以使用仅与传感器子集同步的真实标注，以及在传感器测量之间的时间戳获取模型输出，这对于实时应用可能是有益的[31]。

4 Experiments

作者评估了DualAD在具有挑战性且建立良好的nuScenes数据集[1]上的性能。此外，作者将作者提出的方法整合到两个SOTA端到端可训练的驾驶框架中，即UniAD[10]和VAD[11]。作者进行了广泛的消融研究，以评估作者的设计选择的效果，并提供额外的见解以及定性结果。

数据集： 作者使用了大规模的nuScenes数据集[1]，该数据集由1000个场景组成，并使用了官方的培训和验证集划分。作者分别采用了官方的目标检测任务[21]和目标跟踪任务[22]的定义，并遵循其他近期工作[8, 10, 11]对运动预测和规划目标的定义。

指标： 对于目标检测，作者报告了数据集中所有十个类别的主要指标平均精度（mAP）和 nuScenes检测得分（NDS），同时还报告了如 [21] 中定义的真实阳性指标，例如平均平移误差（mATE）、平均方向误差（mAOE）和平均速度误差（mAVE）。对于目标跟踪，作者遵循 [22] 中的官方指标定义，并报告了多目标跟踪平均精度（AMOTA）和多目标跟踪平均精确度（AMOTP）以及召回率和身份切换次数（IDS）。对于地图分割，作者遵循 [10] 并对不同类别的鸟瞰图分割交并比（IoU）进行了报告。关于指标和类别定义的更多细节，请读者参考 [10]。对于运动预测，作者报告了端到端预测准确性（EPA）[8] 作为主要指标，以及真实阳性指标最小平均位移误差（minADE）和最小最终位移误差（minFDE）。对于开环规划，作者报告了到自身轨迹的L2距离以及相应为和的碰撞率。关于作者方法的不同配置的更多详细评估，包括额外的指标，可以在补充材料中找到。

训练配置：作者密切遵循[10, 11, 30]中的设置以提高可比性。除非另有说明，作者使用VovNet-V2-99 [12]和图像分辨率为

奔驰提出自动驾驶新视角，DualAD 方法在 nuScenes 基准上的时间一致性与动态建模突破 ！

正文