端到端规划误差降低40%！毫末最新OAD：轨迹偏移学习助力端到端新SOTA~

自动驾驶之心 · 公众号 · · 2025-02-18 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 毫末智行最新的工作—OAD！ 该方法显著提高了规划精度和安全性，在nuScenes上将L2 error降低了近40%。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『端到端自动驾驶』 技术交流群

论文作者 | Zhennan Wang等

编辑 | 自动驾驶之心

写在前面 & 方法概览

端到端自动驾驶技术在近年来取得了显著进展。在本研究中，我们提出了轨迹偏移学习，将传统的直接预测自车轨迹，转换为预测相对于轨迹锚点的偏移，降低模型学习的难度。与baseline模型相比，该方法显著提高了规划精度和安全性，在nuScenes上将L2 error降低了39.7%（从0.78m降至0.47m），并将碰撞率降低了84.2%（从0.38%降至0.06%）。此外，OAD展示了生成多样化、多模轨迹的能力，增强了其对复杂驾驶场景的适应性。

技术报告和可视化内容，参考项目主页：https://wzn-cv.github.io/OAD

简介

本报告在VAD框架的基础上构建了更强大的基线模型。具体而言，我们通过实证验证了几种明确且有效的技术，包括与鸟瞰视角（BEV）的交互、指令插入位置。此外，我们设计了一种创新的方法，利用轨迹词汇表来学习偏移量，而非直接学习轨迹。

OAD算法核心

与BEV的交互

在规划模块中，VAD仅设计了自车查询（ego query）与Agent查询（agent queries）和地图查询（map queries）之间的交互，其中并未涉及BEV特征，如图2(a)所示。这导致自车查询只能感知结构化的障碍物和地图信息，而无法捕捉周围环境的丰富特征和全面信息。受UniAD的启发，我们将自车查询与BEV特征进行关联，从而使系统能够更好地理解和感知其周围环境。

此外，对于每个高级指令（high-level command），VAD使用一个对应的多层感知机（MLP）头来输出轨迹。我们认为这种设计可能导致参数冗余。因此，我们引入了高级指令嵌入作为条件输入，使所有高级指令共享一个单一的MLP头进行轨迹解码。

高级指令插入位置

在UniAD中，高级指令仅在自车查询与密集BEV特征进行交叉注意力（cross-attention）之前被引入。我们认为，高级指令不仅应在与BEV的交叉注意力之前引入，还应在轨迹解码MLP之前引入。前者使自车能够更加关注与高级指令相对应的区域，从而降低碰撞率；后者则使轨迹解码器能够显式捕捉未来方向，从而减少位移误差。因此，我们在两个位置都引入了高级指令嵌入，如图2(b)所示。

学习轨迹偏移量

我们认可VADv2和Hydra-MDP中采用的理念，即构建一个固定的规划词汇表以降低规划的复杂性。略微不同的是，我们采用了在线K-means进行词汇表学习，这使得实现更为简单。

更重要的是，我们认为基于该规划词汇表学习偏移量，而非直接学习轨迹，可以带来更高的有效性。这种方法受到目标检测领域工作的启发，其中学习相对于锚框（anchor boxes）的偏移量。

具体设计如图2(b)所示。自车查询结合轨迹锚点嵌入和高级指令，在关联Agent查询、地图查询和BEV特征后学习偏移量，可表述如下：

其中，表示自车查询，是一个可学习参数，表示规划词汇表中第条轨迹的锚点嵌入。

在训练过程中，从词汇表中选择具有最低偏移量的轨迹来计算损失：

其中，表示最终位移误差。总训练目标为：

其中，