专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
邳州银杏甲天下  ·  事关2027年高考,省教育厅最新公告 ·  昨天  
单向街书店  ·  【单向历】2 月 21 日,宜静止 ·  3 天前  
新京报书评周刊  ·  几乎不识字的她,完成了一部关于自己的人生叙事 ·  5 天前  
教育之江  ·  图说 | ... ·  3 天前  
教育之江  ·  图说 | ... ·  3 天前  
安徽省教育厅官微  ·  考试报名:3月3日至7日 ·  3 天前  
51好读  ›  专栏  ›  3DCV

10x加速!地平线创下新纪录!DiffusionDrive:端到端自动驾驶大一统!

3DCV  · 公众号  ·  · 2024-12-08 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

作者:Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

机构:华中科技大学、地平线

原文链接:https://arxiv.org/abs/2411.15139

代码链接:https://github.com/hustvl/DiffusionDrive

1. 导读

最近,扩散模型已经成为机器人策略学习的一种强大的生成技术,能够对多模式动作分布进行建模。利用其端到端自动驾驶的能力是一个有前途的方向。然而,机器人扩散策略中的大量去噪步骤和交通场景的更动态、开放世界的性质对以实时速度生成多样化的驾驶动作提出了实质性的挑战。为了解决这些挑战,我们提出了一种新的截断扩散策略,该策略结合了先前的多模式锚并截断扩散时间表,使模型能够从锚定高斯分布到多模式驾驶动作分布学习去噪。此外,我们设计了一个有效的级联扩散解码器,用于增强与条件场景上下文的交互。提出的模型,扩散驱动,证明了10×与普通扩散策略相比,减少了去噪步骤,只需两步即可实现卓越的多样性和质量。在面向规划的NAVSIM数据集上,使用对齐的ResNet-34主干,DiffusionDrive在没有铃声和哨声的情况下实现了88.1 PDMS,创下了新的记录,同时在NVIDIA 4090上以45 FPS的实时速度运行。对挑战性场景的定性结果进一步证实了扩散驱动可以有力地产生各种似是而非的驱动行为。

2. 引言

近年来,随着感知模型(检测、跟踪、在线地图构建等)的发展,端到端自动驾驶技术获得了广泛关注。这些模型可以直接从原始传感器输入中学习驾驶策略。这种数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且稳健的替代方案,而传统的方案往往难以推广到复杂的现实驾驶环境中。

为了有效地从数据中学习,主流的端到端规划器(例如Transfuser、UniAD、VAD)通常会自查询中回归出单模态轨迹。然而,这种范式并未考虑驾驶行为固有的不确定性和多模态特性。最近,VADv2引入了一个包含大量固定锚点轨迹(4096个锚点)的大型词汇表,以对连续动作空间进行离散化,并捕捉更广泛的驾驶行为,然后根据预测分数从这些锚点中进行采样。然而,这种大型固定词汇表范式从根本上受到锚点轨迹数量和质量的限制,经常会在词汇表外场景中失效。此外,管理大量锚点对于实时应用来说,在计算上提出了重大挑战。

与离散化动作空间不同,扩散模型已被证明在机器人领域是一种强大的生成式决策策略,它可以通过迭代去噪过程直接从高斯分布中采样出多模态且物理上合理的动作。这启发我们将扩散模型在机器人领域的成功复制到端到端自动驾驶中。我们通过提出一种变体TransfuserDP,将原始机器人扩散策略应用于著名的单模态回归方法Transfuser,该变体用条件扩散模型替换了确定性多层感知器(MLP)回归头。尽管TransfuserDP提高了规划性能,但出现了两个主要问题:1)原始去噪扩散隐式模型(DDIM)扩散策略中的20个去噪步骤在推理过程中引入了沉重的计算消耗,阻碍了自动驾驶的实时应用。2)从不同高斯噪声中采样的轨迹之间严重重叠。这凸显了在动态且开放的交通场景中控制扩散模型的非平凡挑战。

与从以场景上下文为条件的随机高斯噪声中采样动作的原始扩散策略不同,人类驾驶员会遵循既定的驾驶模式,并根据实时交通状况动态调整这些模式。这一见解促使我们通过将高斯分布划分为以先验锚点为中心的多个子高斯分布(称为锚定高斯分布),将这些先验驾驶模式嵌入到扩散策略中。这是通过截断扩散计划来实现的,即在先验锚点周围引入一小部分高斯噪声。得益于扩散模型的多模态分布表达能力,所提出的截断扩散策略有效地覆盖了潜在动作空间,而无需像VADv2那样需要一组大量固定锚点。从锚定高斯分布中获得更合理的初始噪声样本后,我们可以截断去噪过程,将所需步骤从20步减少到仅2步,实现了显著加速,满足了自动驾驶的实时要求。 推荐课程: 为何BEV和Occupancy撑起了自动驾驶的半边天?

为了增强与条件场景上下文的交互,我们提出了一种基于Transformer的高效扩散解码器,它不仅与感知模块的结构化查询进行交互,还通过稀疏可变形注意力机制[51]与鸟瞰图(BEV)和透视图(PV)特征进行交互。此外,我们引入了一种级联机制,以在扩散解码器的每个去噪步骤中迭代优化轨迹重建。

凭借这些创新,我们提出了DiffusionDrive,这是一种用于实时端到端自动驾驶的扩散模型。我们在以规划为导向的NAVSIM数据集上,使用非反应式模拟和闭环评估对我们的方法进行了基准测试。在不使用任何额外修饰的情况下,DiffusionDrive在NAVSIM navtest分割集上实现了88.1的PDMS(规划决策度量标准),使用的ResNet-34主干网络与先前方法一致,显著优于之前的最先进方法。即使与遵循VADv2方法并包含8192个锚点轨迹以及进一步融入后处理和额外监督的NAVSIM挑战赛获胜方案Hydra-MDP-V8192-W-EP[22]相比,DiffusionDrive仍通过直接从人类演示中学习并在无后处理的情况下进行推断,以1.6的PDMS优势胜出,同时在NVIDIA 4090显卡上以45帧每秒(FPS)的速度运行,满足实时要求。我们还在流行的nuScenes数据集上通过开环评估进一步验证了DiffusionDrive的优越性,DiffusionDrive的运行速度比VAD快1.8倍,并且在使用相同ResNet-50主干网络的情况下,以20.8%更低的L2误差和63.6%更低的碰撞率优于VAD,展示了最先进的规划性能。

3. 效果展示

不同端到端范例的比较。(a)单一模式回归。(b)从词汇中取样。(c)普通扩散政策。(d)提议的截断扩散政策。

在NAVSIM navtest split的挑战场景上对Transfuser、TransfuserDP和DiffusionDrive进行定性比较。使用来自前置摄像头和激光雷达的相同输入,DiffusionDrive实现了top-1得分轨迹的最高规划质量。我们在前视图中渲染由扩散驱动预测的突出显示的不同轨迹。(a)和(b)表明,扩散车道的最高得分轨迹与直行和左转的实际情况非常吻合。此外,DiffusionDrive的前10名得分轨迹显示了高质量的换道——这种能力在多模式TransfuserDP中没有观察到,对Transfuser来说是不可能的。

4. 主要贡献

我们的贡献可以概括为以下几点:

• 我们首次将扩散模型引入端到端自动驾驶领域,并提出了一种新颖的截断扩散策略,以解决将原始扩散策略直接应用于交通场景时出现的模式崩溃和沉重计算开销问题。

• 我们设计了一种高效的基于Transformer的扩散解码器,它以级联方式与条件信息进行交互,以更好地重建轨迹。

• 在不使用任何额外修饰的情况下,DiffusionDrive显著优于之前的最先进方法,在NAVSIM navtest分割集上以相同的主干网络实现了破纪录的88.1 PDMS,同时在NVIDIA 4090显卡上保持了45 FPS的实时性能。

• 我们从定性上证明了DiffusionDrive能够生成更多样化和合理的轨迹,在各种具有挑战性的场景中展现出高质量的多模态驾驶动作。

5. 方法

我们提出的方法DiffusionDrive的整体架构如图4所示。DiffusionDrive可以整合之前端到端规划器中使用的各种现有感知模块,并接受不同的传感器输入。所设计的扩散解码器专为复杂且具有挑战性的驾驶应用而定制,与条件场景上下文之间的交互得到了增强。

扩散解码器。给定从锚定高斯分布中采样的噪声轨迹集合,我们首先应用可变形空间交叉注意力来根据轨迹坐标与鸟瞰图(BEV)或透视图(PV)特征进行交互。随后,在轨迹特征和来自感知模块的代理/地图查询之间进行交叉注意力计算,接着是一个前馈网络(FFN)。为了编码扩散时间步信息,我们使用了时间步调制层,之后是一个多层感知器(MLP),用于预测置信度分数和相对于初始噪声轨迹坐标的偏移量。该扩散解码器层的输出作为后续级联扩散解码器层的输入。DiffusionDrive进一步重用级联扩散解码器,在推理过程中迭代地对轨迹进行去噪,不同去噪时间步的参数共享。最终选择置信度分数最高的轨迹作为输出。

6. 实验结果

表1在NAVSIM navtest数据集划分上,将DiffusionDrive与当前最先进的方法进行了比较。在相同的ResNet-34主干网络下,DiffusionDrive获得了88.1的PDMS分数,显著优于以往基于学习的方法。与VADv2相比,DiffusionDrive在PDMS上领先7.2分,同时将锚点数量从8192减少到20,实现了400倍的缩减。相较于遵循VADv2的“从词汇表中采样”范式的Hydra-MDP,DiffusionDrive在PDMS上提高了5.1分。即使与Hydra-MDP-V8192-W-EP相比——这是Hydra-MDP的一个变体,通过进一步训练以适应EP评价指标,采用额外的监督以及加权置信度后处理,DiffusionDrive仍然凭借3.5的EP分数和1.6的总体PDMS分数优势胜出,而它仅依赖于直接的从人类学习的方法,无需任何后处理。与Transfuser基线模型相比,两者仅在规划模块上有所不同,DiffusionDrive实现了显著的4.1 PDMS分数提升,在所有子分数上均优于Transfuser。

在表2中,将Transfuser转换为使用普通扩散策略的生成式TransfuserDP,PDMS分数提高了0.6,模式多样性分数D提高了11%。然而,这也显著增加了规划模块的开销,需要20倍的更多去噪步骤和32倍的单步时间,导致总运行时开销增加了650倍。采用提出的截断扩散策略后,TransfuserTD将去噪步骤数量从20减少到2,同时PDMS提高了1.1,模式多样性提高了59%。通过进一步结合提出的扩散解码器,最终模型DiffusionDrive达到了88.1的PDMS分数和74%的模式多样性分数D。与TransfuserDP相比,DiffusionDrive在PDMS上提高了3.5分,模式多样性提高了64%,去噪步骤减少了10倍,从而在每秒帧数(FPS)上实现了6倍的速度提升。这实现了实时、高质量、多模式的规划。

7. 总结

在本工作中,我们提出了一种新颖的生成式驾驶决策模型DiffusionDrive,用于端到端自动驾驶。该模型结合了提出的截断扩散策略和高效的级联扩散解码器。DiffusionDrive能够从锚定的高斯分布中对可变数量的样本进行去噪,以实时速度生成多样化的规划轨迹。全面的实验和定性比较验证了DiffusionDrive在规划质量、运行效率和模式多样性方面的优越性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文