专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
小众软件  ·  另外两件事[250312] ·  昨天  
小众软件  ·  真的很老的古董更新:RBTray ·  昨天  
APPSO  ·  本地部署满血版 DeepSeek ... ·  2 天前  
APPSO  ·  iPhone 将迎来 10 ... ·  2 天前  
南方能源观察  ·  两会声音 | 能源央企“一把手”谈行业发展新思路 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

端到端规划误差降低40%!毫末最新OAD:轨迹偏移学习助力端到端新SOTA~

自动驾驶之心  · 公众号  ·  · 2025-02-18 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 毫末智行最新的工作—OAD! 该方法显著提高了规划精度和安全性,在nuScenes上将L2 error降低了近40%。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 端到端自动驾驶 技术交流群

论文作者 | Zhennan Wang等

编辑 | 自动驾驶之心

写在前面 & 方法概览

端到端自动驾驶技术在近年来取得了显著进展。在本研究中,我们提出了轨迹偏移学习,将传统的直接预测自车轨迹,转换为预测相对于轨迹锚点的偏移,降低模型学习的难度。与baseline模型相比,该方法显著提高了规划精度和安全性,在nuScenes上将L2 error降低了39.7%(从0.78m降至0.47m),并将碰撞率降低了84.2%(从0.38%降至0.06%)。此外,OAD展示了生成多样化、多模轨迹的能力,增强了其对复杂驾驶场景的适应性。

技术报告和可视化内容,参考项目主页:https://wzn-cv.github.io/OAD

简介

本报告在VAD框架的基础上构建了更强大的基线模型。具体而言,我们通过实证验证了几种明确且有效的技术,包括与鸟瞰视角(BEV)的交互、指令插入位置。此外,我们设计了一种创新的方法,利用轨迹词汇表来学习偏移量,而非直接学习轨迹。

OAD算法核心

与BEV的交互

在规划模块中,VAD仅设计了自车查询(ego query)与Agent查询(agent queries)和地图查询(map queries)之间的交互,其中并未涉及BEV特征,如图2(a)所示。这导致自车查询只能感知结构化的障碍物和地图信息,而无法捕捉周围环境的丰富特征和全面信息。受UniAD的启发,我们将自车查询与BEV特征进行关联,从而使系统能够更好地理解和感知其周围环境。

此外,对于每个高级指令(high-level command),VAD使用一个对应的多层感知机(MLP)头来输出轨迹。我们认为这种设计可能导致参数冗余。因此,我们引入了高级指令嵌入作为条件输入,使所有高级指令共享一个单一的MLP头进行轨迹解码。

高级指令插入位置

在UniAD中,高级指令仅在自车查询与密集BEV特征进行交叉注意力(cross-attention)之前被引入。我们认为,高级指令不仅应在与BEV的交叉注意力之前引入,还应在轨迹解码MLP之前引入。前者使自车能够更加关注与高级指令相对应的区域,从而降低碰撞率;后者则使轨迹解码器能够显式捕捉未来方向,从而减少位移误差。因此,我们在两个位置都引入了高级指令嵌入,如图2(b)所示。

学习轨迹偏移量

我们认可VADv2和Hydra-MDP中采用的理念,即构建一个固定的规划词汇表以降低规划的复杂性。略微不同的是,我们采用了在线K-means进行词汇表学习,这使得实现更为简单。

更重要的是,我们认为基于该规划词汇表学习偏移量,而非直接学习轨迹,可以带来更高的有效性。这种方法受到目标检测领域工作的启发,其中学习相对于锚框(anchor boxes)的偏移量。

具体设计如图2(b)所示。自车查询结合轨迹锚点嵌入和高级指令,在关联Agent查询、地图查询和BEV特征后学习偏移量,可表述如下:

其中, 表示自车查询, 是一个可学习参数,表示规划词汇表中第 条轨迹的锚点嵌入。

在训练过程中,从词汇表中选择具有最低偏移量的轨迹来计算损失:

其中, 表示最终位移误差。总训练目标为:

其中,







请到「今天看啥」查看全文