专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
51好读  ›  专栏  ›  自动驾驶之心

如何评价 CVPR 2025的中稿结果?自动驾驶又该关注哪些方向?

自动驾驶之心  · 公众号  ·  · 2025-03-03 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 CVPR 2025自动驾驶方向中稿的工作 ,列表持续更新中!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→ 自动驾驶之心 『CVPR 2025』技术交流群

CVPR 2025录用结果出炉!!!今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。这其中有很多优秀的自动驾驶工作,今天自动驾驶之心就和大家分享CVPR'25自动驾驶方向中稿的相关工作,列表持续更新中...

从中稿方向上看,论文集中在 端到端、闭环仿真3DGS、多模态大模型、扩散模型 这些前沿方向。预计今年工业界和学术界也是这些方向重点发力,一起加油!

相关工作已第一时间上传至 《自动驾驶之心知识星球》, 欢迎加入国内最专业的自动驾驶社区!技术分享、求职招聘、行业交流、前沿直播一键直达!

UniScene: Unified Occupancy-centric Driving Scene Generation

上交、中国东方理工大学宁波数字孪生研究所以及 清华赵昊老师团队 的工作:生成高保真、可控和带注释的训练数据对于自动驾驶至关重要。现有的方法通常直接从粗略的场景布局生成单个数据表单,这不仅无法输出各种下游任务所需的丰富数据表单,而且难以对直接布局到数据分布进行建模。本文介绍了UniScene,这是第一个在驾驶场景中生成三种关键数据形式(语义占用、视频和LiDAR)的统一框架。UniScene采用渐进式生成过程,将场景生成的复杂任务分解为两个层次步骤:(a)首先从定制的场景布局中生成语义占用,作为富含语义和几何信息的元场景表示,然后(b)根据占用情况,分别生成视频和LiDAR数据,采用基于高斯的联合渲染和先验引导稀疏建模这两种新的传输策略。这种以占用为中心的方法减少了生成负担,特别是对于复杂的场景,同时为后续生成阶段提供了详细的中间表示。大量实验表明,UniScene在占用率、视频和激光雷达生成方面优于之前的SOTA,这也确实有利于下游驾驶任务。

  • 论文链接:https://arxiv.org/abs/2412.05435
  • 项目主页:https://arlo0o.github.io/uniscene/

Don't Shake the Wheel: Momentum-AwarePlanning in End-to-End Autonomous Driving

端到端的自动驾驶框架促进了感知和规划的无缝集成,但通常依赖于一次性轨迹预测,缺乏时间一致性和长期意识。这种限制可能会导致控制不稳定、不理想的偏移,以及在单帧感知中容易受到遮挡。在这项工作中,本文提出了动量感知驱动(MomAD)框架,通过引入轨迹动量和感知动量来稳定和改进轨迹预测,从而解决这些问题。MomAD由两个关键组件组成:(1)拓扑轨迹匹配(TTM),它使用豪斯多夫距离将预测与先前路径对齐,并确保时间一致性;(2)动量规划交互器(MPI),它将规划查询与历史时空上下文交叉参与。此外,编码器-解码器模块引入特征扰动以提高对感知噪声的鲁棒性。为了量化规划稳定性,本文提出了轨迹预测一致性(TPC)度量,表明MomAD在nuScenes数据集上实现了长期一致性(>3s)。本文进一步策划了具有挑战性的转弯nuScenes验证集,重点关注转弯场景,其中MomAD超越了最先进的方法,突出了其在动态驾驶条件下增强的稳定性和响应性。

  • 项目主页:https://github.com/adept-thu/MomAD

V2X - R: Cooperative LiDAR - 4D Radar Fusion with Denoising Diffusion for 3D Object Detection

厦门大学、上交及武汉大学等团队的工作:当前的车联网(V2X)系统使用激光雷达和摄像头数据显著增强了3D目标检测。然而,这些方法在恶劣天气条件下性能会下降。Weather-robust 4D雷达提供多普勒和额外的几何信息,提高了应对这一挑战的可能性。为此介绍了V2X-R,这是第一个包含LiDAR、相机和4D雷达的仿真V2X数据集。V2X-R包含12079个场景,其中37727帧激光雷达和4D雷达点云、150908张图像和170859个带注释的3D车辆边界框。随后,本文提出了一种新的用于3D目标检测的协同LiDAR-4D雷达融合流pipeline,并采用各种融合策略来实现。为了实现天气鲁棒检测,本文在融合管道中还提出了一个多模态去噪扩散(MDD)模块。MDD利用天气鲁棒性4D雷达特征作为条件,促使扩散模型对噪声LiDAR特征进行去噪。实验表明,本文的LiDAR-4D雷达融合流水线在V2X-R数据集中表现出卓越的性能。除此之外,本文的MDD模块在雾/雪条件下将基本融合模型的性能进一步提高了5.73%/6.70%,几乎不会干扰正常性能。

  • 论文链接:https://arxiv.org/abs/2411.08402
  • 项目主页:https://github.com/ylwhxht/V2X-R

StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models

浙大、理想和康奈尔大学团队的工作:本文旨在解决从车辆传感器数据中合成逼真视图的问题。神经场景表示的最新进展在渲染高质量的自动驾驶场景方面取得了显著成功,新视角性能会显著下降。为了缓解这个问题,本文引入了StreetCrafter,这是一种新颖的可控视频扩散模型,它利用LiDAR点云渲染作为像素级条件,充分利用生成先验进行新颖的视图合成,同时保持精确的相机控制。此外,像素级激光雷达条件的利用使本文能够对目标场景进行精确的像素级编辑。此外,StreetCrafter的生成先验可以有效地整合到动态场景表示中,以实现实时渲染。在Waymo Open Dataset和PandaSet上的实验表明,本文的模型能够灵活控制视点变化,扩大视图合成区域以满足渲染需求,优于现有方法。

  • 论文链接:https://arxiv.org/abs/2412.13188
  • 项目主页:https://zju3dv.github.io/street_crafter/

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

澳门大学、理想和北理工团队的工作:自动驾驶评估需要模拟环境来密切复制实际路况,包括真实世界的感官数据和响应反馈回路。然而,许多现有的模拟需要在公共数据集或合成照片级真实感数据上预测固定路线上的航路点,即开环模拟通常缺乏评估动态决策的能力。虽然闭环仿真的最新努力提供了反馈驱动的环境,但它们无法处理视觉传感器输入或产生与现实世界数据不同的输出。为了应对这些挑战,本文提出了DrivingSphere,这是一个现实的闭环仿真框架。其核心思想是构建4D世界表示,并生成现实生活中可控的驾驶场景。具体来说,本文的框架包括一个动态环境合成模块,该模块以配备静态背景和动态对象的占用格式构建了一个详细的4D驾驶世界,以及一个视觉场景合成模块,将这些数据转换为高保真、多视图视频输出,确保空间和时间的一致性。通过提供动态和逼真的仿真环境,DrivingSphere能够对自动驾驶算法进行全面的测试和验证,最终推动更可靠的自动驾驶汽车的发展。

  • 论文链接:https://arxiv.org/abs/2411.11252
  • 项目主页:https://yanty123.github.io/DrivingSphere/

OmniDrive: A Holistic Vision - Language Dataset for Autonomous Driving with counter Factual Reasoning

北理工、英伟达和华科团队的工作:多模态大型语言模型(MLLM)的进步导致人们对基于LLM的自动驾驶代理越来越感兴趣,以利用其强大的推理能力。然而,利用MLLM强大的推理能力来改善规划行为是具有挑战性的,因为规划需要超越2D推理的完全3D态势感知。为了应对这一挑战,我们的工作提出了一个整体框架,用于在代理模型和3D驱动任务之间进行强对齐。我们的框架从一种新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升并压缩为3D,然后再将其输入LLM。这种基于查询的表示允许我们联合编码动态对象和静态地图元素(例如交通车道),为3D中的感知-动作对齐提供一个压缩的世界模型。我们进一步提出了OmniDrive nuScenes,这是一种新的视觉问答数据集,通过全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D基础、反事实推理、决策和规划,挑战了模型的真实3D情境感知。广泛的研究表明了所提出架构的有效性,以及VQA任务在复杂3D场景中推理和规划的重要性。

  • 论文链接:https://arxiv.org/abs/2405.01533

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

华科和地平线的工作:最近扩散模型已经成为一种强大的机器人策略学习生成技术,能够对多模式动作分布进行建模。利用其端到端自动驾驶能力是一个有前景的方向。然而,机器人扩散策略中的众多去噪步骤以及交通场景更动态、更开放的世界性质,对实时生成各种驾驶行为构成了重大挑战。为了应对这些挑战,我们提出了一种新的截断扩散策略,该策略结合了先前的多模式锚点并截断了扩散调度,使模型能够从锚定的高斯分布学习去噪到多模式驾驶动作分布。此外,我们设计了一种高效的级联扩散解码器,用于增强与条件场景上下文的交互。所提出的模型DiffusionDrive与香草扩散策略相比,降噪步骤减少了10倍,仅需2步即可提供卓越的多样性和质量。在面向规划的NAVSIM数据集上,使用对齐的ResNet-34骨干网,DiffusionDrive在NVIDIA 4090上以45 FPS的实时速度运行时,实现了88.1 PDMS的无花哨功能,创下了新纪录。对具有挑战性场景的定性结果进一步证实,DiffusionDrive可以稳健地生成各种合理的驾驶行为。







请到「今天看啥」查看全文