0. 论文信息
标题:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
作者:Xin Zhou, Dingkang Liang, Sifan Tu, Xiwu Chen, Yikang Ding, Dingyuan Zhang, Feiyang Tan, Hengshuang Zhao, Xiang Bai
机构:Huazhong University of Science & Technology、MEGVII Technology、Mach Drive、The University of Hong Kong
原文链接:https://arxiv.org/abs/2501.14729
代码链接:https://github.com/LMD0311/HERMES
1. 导读
驾驶世界模型(dwm)通过实现未来场景预测,已经成为自动驾驶的基本要素。然而,现有的DWMs仅限于场景生成,并且未能结合场景理解,场景理解涉及对驾驶环境的解释和推理。本文提出了一个统一的驾驶世界模型,命名为HERMES。我们通过驾驶场景中的统一框架,无缝集成3D场景理解和未来场景演化(生成)。具体来说,HERMES利用鸟瞰视图(BEV)表示来整合多视图空间信息,同时保留几何关系和交互。我们还引入了世界查询,它通过大型语言模型(LLM)中的因果注意将世界知识纳入BEV特征,实现了理解和生成任务的上下文丰富。我们在nuScenes和OmniDrive-nuScenes数据集上进行了全面的研究,以验证我们方法的有效性。我们实现了最先进的性能,减少了32.4%的生成误差,并提高了8.0%的理解指标。
2. 效果展示
(a)以前的驾驶世界模型仅专注于生成,预测场景演变。 (b)驾驶的大型语言模型仅限于场景理解。(c)通过分别使用未来生成器和大型语言模型的一种简单统一方式。(d)提出的简单框架将周围3D场景的理解统一起来并生成场景演变。
3. 主要贡献
我们的主要贡献可归纳如下:在本文中,我们提出了HERMES,它驯服了1)LLM,使其能够同时理解自动驾驶场景并预测其演变。据我们所知,这是第一个能够将3D理解和生成任务统一起来的世界模型;2)我们引入了世界查询,以从文本标记中捕获和整合世界知识,确保生成的场景演变不仅具有上下文意识,而且具有丰富的世界知识。该方案有效地弥合了理解和生成任务之间的差距,使对未来场景的预测更加连贯和准确。
4. 方法
本文旨在设计一个简单的统一框架,用于理解和生成自动驾驶中的场景,作为世界模型,基于图像观察预测当前和未来场景(即未来生成)中的点云,并进行详细的场景理解(即场景理解)我们的方法流程如图2所示。我们从多视图输入图像It开始,使用基于BEV的标记器对语义信息进行编码,然后将其展开,以便由大型语言模型(LLM)进行处理。基于用户对话,LLM执行下一个令牌预测,以理解当前的自动驾驶场景。我们将世界查询纳入序列中,利用对话和编码的BEV中的世界知识。当前到未来的链接在各个时间步骤上生成BEV特征,共享渲染预测当前场景点云Pt(作为辅助任务),并生成从Pt+1到Pt+△t的未来场景。
推荐课程:
为何BEV和Occupancy撑起了自动驾驶的半边天?
5. 实验结果
6. 总结 & 局限性
本文介绍HERMES,一个简单而有效的统一驾驶世界模型,它在一个框架内集成了3D场景理解和未来场景生成。通过利用鸟瞰图(BEV)表示和通过大型语言模型增强的世界查询,我们有效地弥合了理解和生成之间的差距。广泛的实验验证了所提出的方法的有效性,HERMES在预测未来场景准确性和理解指标方面表现出显著的改进超越了最先进的方法。在未来,我们计划研究一个多模态统一的世界模型,以便于多模态输入和输出。
局限性。虽然HERMES在统一3D场景理解和生成方面取得了有希望的结果,但仍然存在一些局限性:1)我们尚未在我们的框架内探索自主驾驶的感知和规划任务。2)未来图像也是重要的生成模式,但仍在探索中。我们将其留待未来研究
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、