专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

nuPlan新SOTA！清华提出Diffusion Planner：扩散模型重塑自动驾驶路径规划（ICLR'25）

计算机视觉工坊 · 公众号 · · 2025-02-10 07:00

正文

请到「今天看啥」查看全文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：自动驾驶之心

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

本文介绍了清华大学联合毫末智行、自动化所、港中文、上海交大、上海人工智能实验室的发表于 ICLR 2025 的最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》。该算法创新性地设计了 基于 Diffusion Transformer 的自动驾驶规划模型架构 ，高效处理复杂场景输入，并联合建模周车运动预测与自车规划中的多模态驾驶行为，充分发挥扩散模型在闭环规划中的潜力，解决了现有基于学习的规划方法对后处理的严重依赖问题。此外，借助 扩散模型的引导机制 ，模型在部署阶段能够灵活适应不同的驾驶需求，提高泛化能力与实用性。

论文链接：https://arxiv.org/pdf/2501.15564

项目主页：https://zhengyinan-air.github.io/Diffusion-Planner/

背景介绍

自动驾驶规划 正朝着更安全、高效的方向发展，但在复杂环境下实现类人驾驶仍具挑战。基于规则的方法虽在工业应用中取得成功，但适应性差，调整成本高；模仿学习能直接学习专家驾驶行为，并随训练数据扩展提升性能。然而，模仿学习方法在多模态行为适应性、泛化能力和驾驶风格灵活调控上仍存挑战，依赖后处理来优化模型输出。

近年来， 扩散模型 在决策领域得到广泛应用，但在自动驾驶规划中的探索仍有限。现有研究多聚焦于运动预测和场景生成，关注开环性能，而非闭环规划。一些方法尝试将扩散模型应用于规划任务，但仅仅是沿用现有结构或扩展模型参数，缺乏针对性结构设计，导致仍然高度依赖后处理。

为此，我们提出了 Diffusion Planner ，一种创新的 基于扩散模型的自动驾驶规划方法 。通过扩散模型强大的数据分布拟合能力，Diffusion Planner能够精准捕捉复杂场景中周车与自车的多模态驾驶行为，并实现周车预测与自车规划的联合建模。同时，基于Transformer的结构设计高效处理复杂场景输入，实现20Hz的高速实时推理。此外，借助灵活的引导机制，模型在部署阶段即可适应不同的驾驶需求。在大规模真实数据集 nuPlan 的闭环评估中， Diffusion Planner取得了SOTA级表现，⼤幅降低了对后处理的依赖 ，并在额外收集的 200 小时物流小车数据上验证了其在多种驾驶风格下的鲁棒性和迁移能力。

Diffusion Planner 技术细节

Diffusion Planner专为自动驾驶闭环规划设计 ，具备以下特点：

基于DiT架构融合加噪轨迹与条件信息，推理速度可达20Hz；
联合建模自车与周车的未来轨迹，将运动预测与闭环规划统一为未来轨迹生成；
采用扩散模型的引导机制，实现具有偏好的轨迹生成。

模型结构设计

在自动驾驶中，自车与周围车辆之间的紧密互动使得规划与预测任务必须高度协同。为了应对复杂的交通场景，准确预测邻近车辆的未来轨迹至关重要。这不仅提升了闭环规划模型的能力，还能增强系统的安全性和可控性。我们通过 联合建模关键参与者的状态，将运动预测与闭环规划任务统一为一个未来轨迹生成任务 。我们希望模型能够同时生成所有关键参与者的未来轨迹，从而实现更加自然的协同行为。

然而，多车交互的复杂场景会产生更加多样的驾驶行为，增加了训练的难度。为此，我们 采用了扩散模型的框架进行训练，并基于Diffusion Transformer设计了针对自动驾驶规划的结构 。

具体而言，我们考虑了周围车辆的历史信息、道路信息和静态障碍物，设计了简洁的编码器结构用于信息提取，并通过交叉注意力机制与加噪后的自车和周车轨迹进行信息交互。此外，我们还引入了额外的导航信息以及扩散模型特有的加噪步数信息。为了避免模型重复自车历史行为导致闭环性能下降，我们仅考虑自车当前时刻的位置和朝向，并与周车的当前状态一起拼接到加噪轨迹中。通过这种方式，起始状态的引导还能进一步降低模型对未来轨迹生成的难度。

有偏好轨迹生成

基于扩散模型的引导机制，我们可以在模型的测试阶段引入安全，舒适等偏好，同时也可以根据用户需求灵活的改变模型输出的轨迹特性，例如速度特性。此外，不同的偏好可以通过加权求和轻松组合，并且在部署阶段可以灵活选择是否启用，提供更大的灵活性。

实验结果

nuPlan闭环仿真

下图展示了Diffusion Planner与其他自动驾驶规划算法在nuPlan数据集上的表现对比。我们在三个常用测试基准上进行了比较，结果显示 Diffusion Planner达到了SOTA性能水平 。通过引入现有的后处理模块，算法性能得到了进一步提升，这得益于模型生成的高质量轨迹，为后处理模块提供了更优的初始化参考轨迹。

此外，我们还对比了现有基于扩散模型的自动驾驶规划算法。与现有方法相比，Diffusion Planner 有效降低了对后处理的依赖，同时实现了更高的推理频率 ，进一步验证了我们设计结构的有效性。

轨迹生成可视化

为了进一步展示Diffusion Planner在轨迹生成方面的优势，我们选择了狭窄路段的左转场景，并与现有方法的无后处理版本进行了对比，如下图所示。Diffusion Planner生成了高质量的轨迹， 不仅准确预测了周围车辆的行为，还生成了平滑的自车规划轨迹 ，合理地考虑了前车的速度，充分体现了预测与规划任务联合建模以及扩散模型生成的优势。

毫末智行物流小车数据集

我们使用毫末智行收集的约200小时真实世界物流小车配送数据，作为nuPlan数据集的补充，并计划后续开源。与nuPlan数据集中的车辆相比，配送车具有以下特点：尺寸较小，运行速度较低；可以在主干道和自行车道上行驶；与行人和骑行者的交互更为频繁，同时面临不同的行驶规则。通过在该数据集上进行测试，我们发现Diffusion Planner依然保持了最佳表现。相比之下，基于规则或依赖后处理的方法由于其设计存在对nuPlan数据的过拟合问题，导致在新场景中的性能下降。这进一步 证明了Diffusion Planner在适应不同驾驶行为方面的鲁棒性 。

有偏好轨迹生成案例

为了进一步展示引导机制的有效性，我们挑选了部分场景，从相同起始位置出发，展示了闭环测试结果。红色虚线和空心黄色车代表没有引导的结果，而红色实线和实心黄色车则表示有引导的结果。

总结

在本文中，我们提出了 Diffusion Planner，一种基于模仿学习的自动驾驶规划方法，充分发挥扩散模型的强大表达能力和灵活的引导机制。我们设计了基于 Diffusion Transformer 的模型架构，联合建模运动预测与规划任务中的多模态数据分布，并利用扩散模型的引导机制，使模型生成的规划行为与目标驾驶风格保持一致。Diffusion Planner 在 nuPlan 数据集及新收集的 200 小时物流车驾驶数据集上取得了 SOTA 级别的闭环性能，并展现出对不同驾驶风格的强大适应性。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网： www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 、 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真 、 C++、三维视觉python、dToF、相机标定、ROS2 、 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里 👇 关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~