专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

清华 && 地平线 SparseDrive | 重新定义端到端自动驾驶任务设计，所有任务都超过 SOTA 的方法！

智驾实验室 · 公众号 · · 2024-06-03 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

已建立的模块化自动驾驶系统被分解为不同的独立任务，例如感知、预测和规划，这些模块之间存在信息丢失和错误累积的问题。

相比之下，端到端范式将多任务统一到一个完全可微分的框架中，能够以规划为导向进行优化。

尽管端到端范式具有巨大潜力，但现有方法在性能和效率方面均不尽人意，特别是在规划安全性方面。作者将这归因于计算昂贵的鸟瞰图（BEV）特征以及预测和规划的直接设计。为此，作者探索了稀疏表示并重新审视了端到端自动驾驶的任务设计，提出了一个名为SparseDrive的新范式。

具体来说，SparseDrive包括一个对称稀疏感知模块和一个并行运动规划器。稀疏感知模块通过对称的模型架构统一了检测、跟踪和在线建图，学习驾驶场景的完全稀疏表示。对于运动预测和规划，作者审视了这两个任务之间的巨大相似性，导致了运动规划器的并行设计。

基于这种并行设计，将规划建模为一个多模态问题，作者提出了一种分层规划选择策略，其中包含一个考虑碰撞的重评分模块，以选择合理且安全的轨迹作为最终的规划输出。

凭借这些有效的设计，SparseDrive在所有任务上的性能都超过了先前最先进的方法，同时实现了更高的训练和推理效率。

代码将可在https://github.com/swc-17/SparseDrive获取，以促进未来的研究。

1 Introduction

传统的自动驾驶系统特点是按顺序排列的模块化任务。虽然在解释和错误跟踪方面有利，但这不可避免地导致信息在连续模块间丢失和累积错误，从而限制了系统的最佳性能潜力。

近期，端到端的驾驶范式作为一个有前景的研究方向出现。这种范式将所有任务整合到一个整体模型中，并可以针对最终的规划追求进行优化。然而，现有的方法[15; 20]在性能和效率方面并不令人满意。一方面，先前的方法依赖于计算昂贵的鸟瞰图（BEV）特征。另一方面，对于预测和规划的直接设计限制了模型性能。作者在图1a中将先前的方法总结为BEV中心范式。

为了充分利用端到端范式的潜力，作者回顾了现有方法的任务设计，并认为以下三个主要平行线在运动预测和规划中被忽视：一是旨在预测周围代理和自我车辆的未来轨迹，运动预测和规划都应考虑道路代理之间的高阶和双向交互。然而，先前的方法通常采用对运动预测和规划的顺序设计，忽略了自我车辆对周围代理的影响。二是准确预测未来轨迹需要用于场景理解的语义信息以及预测代理未来运动的几何信息，这些信息适用于运动预测和规划。尽管这些信息在上游感知任务中针对周围代理提取，但对于自我车辆却被忽视了。三是运动预测和规划都是具有内在不确定性的多模态问题，但先前的方法仅对规划预测确定性轨迹。

为此，作者提出了SparseDrive，一个如图1(b)所示的稀疏中心范式。具体来说，SparseDrive由一个对称稀疏感知模块和一个并行运动规划器组成。通过对解耦的实例特征和几何 Anchor 作为一个实例（一个动态道路代理或一个静态地图元素）的完整表示， 对称稀疏感知 用对称的模型架构统一了检测、跟踪和在线映射任务，学习了一个完全稀疏的场景表示。在 并行运动规划器 中，首先从自我实例初始化模块获得一个语义和几何感知的自我实例。利用稀疏感知的自我实例和周围代理实例，同时进行运动预测和规划，以获得所有道路代理的多模态轨迹。为了确保规划的合理性和安全性，应用了一个包含碰撞感知资源模块的分层规划选择策略，从多模态轨迹 Proposal 中选择最终的规划轨迹。

通过上述有效设计，SparseDrive释放了端到端自动驾驶的巨大潜力，如图1(c)所示。在没有花哨的装饰下，作者的基础模型SparseDrive-B，将平均L2误差降低了19.4%（0.58m对0.72m）并将碰撞率降低了71.4%（0.06%对0.21%）。与先前的SOTA（最先进）方法UniAD[15]相比，作者的小型模型SparseDrive-S在所有任务中实现了更优越的性能，同时训练速度提高了7.2倍（20小时对144小时）和推理速度提高了5.0倍（9.0 FPS对1.8 FPS）。

作者工作的主要贡献总结如下：

作者探索了端到端自动驾驶的稀疏场景表示，并提出了一种名为SparseDrive的稀疏中心范式，该范式用稀疏实例表示统一了多个任务。
作者修订了运动预测和规划之间的高度相似性，相应地导致了运动规划器的并行设计。作者进一步提出了一个包含碰撞感知重打分模块的分层规划选择策略，以提高规划性能。
在具有挑战性的nuScenes[1]基准测试中，SparseDrive在所有指标上都超过了先前的SOTA方法，尤其是在安全关键的碰撞率指标上，同时保持了更高的训练和推理效率。

2 相关工作

Multi-view 3D Detection

多视角3D检测是自动驾驶系统安全的先决条件。LSS[42]利用深度估计将图像特征提升到3D空间，并将特征溅射到BEV平面。后续工作将提升-溅射操作应用到3D检测领域，并在准确性和效率[37; 17]方面取得了显著改进。一些研究[26; 48; 21; 5]预先定义一组BEV Query ，并将它们投影到透视视图中进行特征采样。另一条研究线路移除了对密集BEV特征的依赖。PETR系列[35; 36; 47]引入了3D位置编码和全局注意力来隐式学习视角转换。Sparse4D系列[31; 32; 33]在3D空间中设置明确的 Anchor 点，将它们投影到图像视图中以聚合局部特征，并以迭代的方式细化 Anchor 点。

End-to-End Tracking

大多数多目标跟踪（MOT）方法采用了检测后跟踪的方式，这种方式依赖于数据关联等后处理步骤。这样的流程不能完全发挥神经网络的潜力。受到[2]中目标 Query 的启发，一些研究[52; 55; 50; 41; 46; 54]引入了跟踪 Query 来以流式方式建模被跟踪的实例。MOTR[52]提出了轨道感知标签分配，它强制跟踪 Query 持续检测同一个目标，并且存在检测与关联[55; 50]之间的冲突。Sparse4Dv3证明了时间传播的实例已经具有身份一致性，并且通过一个简单的ID分配过程实现了最先进的跟踪性能。

Online Mapping

在线映射被提出作为高清地图的替代方案，因为高清地图的构建成本高昂且需要大量的人力。HDMapNet[23] 将鸟瞰图（BEV）语义分割与后处理组合起来，以获得向量化的地图实例。VectorMapNet[34] 利用两阶段的自回归 Transformer 进行在线地图构建。MapTR[29] 将地图元素建模为等效排列的点集，从而避免了地图元素定义的歧义。BeMapNet 采用分段贝塞尔曲线来描述地图元素的细节。StreamMapNet[51] 引入了鸟瞰图（BEV）融合和 Query 传播以进行时间建模。

End-to-End Motion Prediction

提出端到端的运动预测方法以避免传统流水线中的级联错误。FaF[40]使用单个卷积网络来预测当前和未来的边界框。IntentNet[3]更进一步，推理高层行为和长期轨迹。PnPNet[28]引入了一个在线跟踪模块，以聚集轨迹 Level 的特征来进行运动预测。ViP3D[10]使用代理 Query 进行跟踪和预测，输入为图像和高清地图。PIP[19]用局部向量地图取代了人工标注的高清地图。

End-to-End Planning

自上世纪以来，端到端规划的研究一直在进行中[43]。早期的工作[6; 7; 44]省略了如感知和运动预测等中间任务，这些任务缺乏可解释性且难以优化。一些研究[14; 4; 45; 8]通过从感知或预测结果构建显式成本图来增强可解释性，但依赖于手工制定的规则来选择具有最小成本的最佳轨迹。最近，UniAD[15]提出了一种统一的 Query 设计，将各种任务整合到一个目标导向的模型中，在感知、预测和规划方面取得了显著性能。VAD[20]使用向量化的表示进行场景学习和规划约束。GraphAD[56]利用图模型处理交通场景中的复杂交互。FusionAD[49]将端到端驾驶扩展到多传感器输入。然而，先前的方法主要关注场景学习，对预测和规划采用了直接的设计，没有充分考虑这两项任务的相似性，极大地限制了性能。

3 Method

Overview

稀疏驱动（SparseDrive）的总体框架如图2所示。具体来说，稀疏驱动由三部分组成：图像编码器、对称稀疏感知和平行运动规划器。给定多视角图像，图像编码器（包括一个 Backbone 网络和一个 Neck ）首先将图像编码为多视角多尺度特征图，其中是尺度数量，是相机视角数量。在对称稀疏感知模块中，特征图被聚集成两组实例，以学习驾驶场景的稀疏表示。这两组实例分别代表周围代理和地图元素，被送入平行运动规划器与初始化的自身实例进行交互。运动规划器同时预测周围代理和自车多模态轨迹，并通过分层规划选择策略选择一条安全轨迹作为最终的规划结果。

Symmetric Sparse Perception

如图3所示，稀疏感知模块的模型结构展现出结构对称性，将检测、跟踪和在线映射统一在一起。

稀疏检测。周围的代理由一组实例特征和 Anchor 框表示，其中是 Anchor 的数量，是特征通道维度。每个 Anchor 框以位置、尺寸、偏航角和速度的格式表示：

稀疏检测分支由个解码器组成，包括一个单一的非时间解码器和个时间解码器。每个解码器接收特征图、实例特征和 Anchor 框作为输入，输出更新的实例特征和精炼的 Anchor 框。非时间解码器接收随机初始化的实例作为输入，而时间解码器的输入来自当前帧和历史帧。具体来说，非时间解码器包括三个子模块：可变形聚合、前馈网络（FFN）以及用于精炼和分类的输出层。可变形聚合模块围绕 Anchor 框生成固定或可学习的关键点，并将它们投影到特征图上进行特征采样。实例特征通过与采样特征的求和进行更新，并在输出层负责预测 Anchor 框的分类分数和偏移量。时间解码器有两个额外的多头注意力层：来自上一帧的时间实例与当前实例之间的时间交叉注意力，以及当前实例之间的自注意力。在多头注意力层中， Anchor 框被转换成高维 Anchor 嵌入，并作为位置编码。

稀疏在线映射。在线映射分支与检测分支共享相同的模型结构，除了不同的实例定义。对于静态地图元素， Anchor 被表述为带有个点的折线：

然后所有的地图元素可以由地图实例特征和 Anchor 折线表示，其中是 Anchor 折线的数量。

稀疏跟踪。对于跟踪，作者遵循Sparse4Dv3[33]的ID分配过程：一旦一个实例的检测置信度超过阈值，它就会被锁定为一个目标并被分配一个ID，这个ID在时间传播中保持不变。这种跟踪策略不需要任何跟踪约束，从而为稀疏感知模块实现了一个优雅且简单的对称设计。

Parallel Motion Planner

如图4所示，并行运动规划器由三部分组成：自我实例初始化、时空交互和分层规划选择。

自我实例初始化。与周围代理类似，自我车辆由自我实例特征和自我 Anchor 框

清华 && 地平线 SparseDrive | 重新定义端到端自动驾驶任务设计，所有任务都超过 SOTA 的方法 ！

正文