点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:自动驾驶之心
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
本文介绍了HERMES:用于同时3D场景理解和生成的统一自动驾驶世界模型。驾驶世界模型(DWMs)通过实现未来场景预测,已成为自动驾驶的关键部分。然而,现有的DWMs受限于场景生成并且无法加入场景理解,而场景理解涉及对驾驶环境的解释和推理。本文提出了一种统一的驾驶世界模型,称为HERMES。本文通过统一的框架在驾驶场景中无缝集成了3D场景理解和未来场景演变(生成)。具体而言,HERMES利用鸟瞰图(BEV)表示来结合多视图空间信息,同时保留了几何关系和交互。本文还引入了世界查询,它通过大型语言模型(LLM)中的因果注意力将世界知识加入BEV特征中,为理解和生成任务丰富上下文。本文在nuScenes和OmniDrive-nuScenes数据集上进行全面研究,以验证所提出方法的有效性。HERMES实现了最先进的性能,将生成错误减少了32.4%,并且将CIDEr等理解指标提高了8.0%。
本文的主要贡献总结如下:
1)本文提出了HERMES,它训练LLM来理解自动驾驶场景并且同时预测其演变。据作者所知,这是首个能够统一3D理解和生成任务的世界模型;
2)本文引入了世界查询来从文本tokens中获取和集成世界知识,从而确保生成的场景演变不仅结合上下文感知,还通过世界知识得以丰富。该方法有效地弥补了理解和生成任务之间的差距,实现对未来场景更连贯、更准确的预测。
本文引入了HERMES,这是一种简单而有效的统一驾驶世界模型,它将3D场景理解和未来场景生成集成到单个框架内。本文通过利用鸟瞰图(BEV)表示并且结合由大型语言模型增强的世界查询,以有效地弥补理解和生成之间的差距。大量的实验验证了所提出方法的有效性,其中HERMES在未来场景预测准确性和理解指标方面取得了显著提升,其超越了最先进的方法。在未来,计划研究一个多模态统一世界模型,它有助于多模态输入和输出。
局限性
:尽管HERMES在统一3D场景理解和生成方面获得了有前景的结果,但是仍然存在一些局限性:1)目前尚未在该框架内探索自动驾驶的感知和规划任务;2)未来图像也是一种重要的生成模态,但是仍有待探索。本文将这些留给了未来工作。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、