专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
恶魔奶爸  ·  大S的病逝,汪小菲难辞其咎! ·  3 天前  
恶魔奶爸  ·  为什么小S堕落成现在这个样子? ·  2 天前  
半导体行业联盟  ·  Rapidus:天价购10台EUV!2025 ... ·  4 天前  
半导体行业联盟  ·  DeepSeek日活突破2000万,创造“中 ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

旷视最新HERMES:3D场景理解和生成统一的自动驾驶世界模型

3D视觉工坊  · 公众号  ·  · 2025-02-03 10:29

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:自动驾驶之心

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

  • 论文链接: https://arxiv.org/pdf/2501.14729
  • 模型和代码链接: https://github.com/LMD0311/HERMES

摘要

本文介绍了HERMES:用于同时3D场景理解和生成的统一自动驾驶世界模型。驾驶世界模型(DWMs)通过实现未来场景预测,已成为自动驾驶的关键部分。然而,现有的DWMs受限于场景生成并且无法加入场景理解,而场景理解涉及对驾驶环境的解释和推理。本文提出了一种统一的驾驶世界模型,称为HERMES。本文通过统一的框架在驾驶场景中无缝集成了3D场景理解和未来场景演变(生成)。具体而言,HERMES利用鸟瞰图(BEV)表示来结合多视图空间信息,同时保留了几何关系和交互。本文还引入了世界查询,它通过大型语言模型(LLM)中的因果注意力将世界知识加入BEV特征中,为理解和生成任务丰富上下文。本文在nuScenes和OmniDrive-nuScenes数据集上进行全面研究,以验证所提出方法的有效性。HERMES实现了最先进的性能,将生成错误减少了32.4%,并且将CIDEr等理解指标提高了8.0%。

主要贡献

本文的主要贡献总结如下:

1)本文提出了HERMES,它训练LLM来理解自动驾驶场景并且同时预测其演变。据作者所知,这是首个能够统一3D理解和生成任务的世界模型;

2)本文引入了世界查询来从文本tokens中获取和集成世界知识,从而确保生成的场景演变不仅结合上下文感知,还通过世界知识得以丰富。该方法有效地弥补了理解和生成任务之间的差距,实现对未来场景更连贯、更准确的预测。

论文图片和表格






总结

本文引入了HERMES,这是一种简单而有效的统一驾驶世界模型,它将3D场景理解和未来场景生成集成到单个框架内。本文通过利用鸟瞰图(BEV)表示并且结合由大型语言模型增强的世界查询,以有效地弥补理解和生成之间的差距。大量的实验验证了所提出方法的有效性,其中HERMES在未来场景预测准确性和理解指标方面取得了显著提升,其超越了最先进的方法。在未来,计划研究一个多模态统一世界模型,它有助于多模态输入和输出。

局限性 :尽管HERMES在统一3D场景理解和生成方面获得了有前景的结果,但是仍然存在一些局限性:1)目前尚未在该框架内探索自动驾驶的感知和规划任务;2)未来图像也是一种重要的生成模态,但是仍有待探索。本文将这些留给了未来工作。


本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结







请到「今天看啥」查看全文