旷视最新HERMES：3D场景理解和生成统一的自动驾驶世界模型

3D视觉工坊 · 公众号 · · 2025-02-03 10:29

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：自动驾驶之心

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文链接： https://arxiv.org/pdf/2501.14729
模型和代码链接： https://github.com/LMD0311/HERMES

摘要

本文介绍了HERMES：用于同时3D场景理解和生成的统一自动驾驶世界模型。驾驶世界模型（DWMs）通过实现未来场景预测，已成为自动驾驶的关键部分。然而，现有的DWMs受限于场景生成并且无法加入场景理解，而场景理解涉及对驾驶环境的解释和推理。本文提出了一种统一的驾驶世界模型，称为HERMES。本文通过统一的框架在驾驶场景中无缝集成了3D场景理解和未来场景演变（生成）。具体而言，HERMES利用鸟瞰图（BEV）表示来结合多视图空间信息，同时保留了几何关系和交互。本文还引入了世界查询，它通过大型语言模型（LLM）中的因果注意力将世界知识加入BEV特征中，为理解和生成任务丰富上下文。本文在nuScenes和OmniDrive-nuScenes数据集上进行全面研究，以验证所提出方法的有效性。HERMES实现了最先进的性能，将生成错误减少了32.4%，并且将CIDEr等理解指标提高了8.0%。

主要贡献

本文的主要贡献总结如下：

1）本文提出了HERMES，它训练LLM来理解自动驾驶场景并且同时预测其演变。据作者所知，这是首个能够统一3D理解和生成任务的世界模型；

2）本文引入了世界查询来从文本tokens中获取和集成世界知识，从而确保生成的场景演变不仅结合上下文感知，还通过世界知识得以丰富。该方法有效地弥补了理解和生成任务之间的差距，实现对未来场景更连贯、更准确的预测。

论文图片和表格

总结

本文引入了HERMES，这是一种简单而有效的统一驾驶世界模型，它将3D场景理解和未来场景生成集成到单个框架内。本文通过利用鸟瞰图（BEV）表示并且结合由大型语言模型增强的世界查询，以有效地弥补理解和生成之间的差距。大量的实验验证了所提出方法的有效性，其中HERMES在未来场景预测准确性和理解指标方面取得了显著提升，其超越了最先进的方法。在未来，计划研究一个多模态统一世界模型，它有助于多模态输入和输出。

局限性 ：尽管HERMES在统一3D场景理解和生成方面获得了有前景的结果，但是仍然存在一些局限性：1）目前尚未在该框架内探索自动驾驶的感知和规划任务；2）未来图像也是一种重要的生成模态，但是仍有待探索。本文将这些留给了未来工作。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、

旷视最新HERMES：3D场景理解和生成统一的自动驾驶世界模型

正文

3D视觉工坊知识星球

请到「今天看啥」查看全文