专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
新闻广角  ·  刚刚,亮相央视!泉州花灯火了! ·  昨天  
新闻广角  ·  14000页涉肯尼迪遇刺案文件被发现 ·  昨天  
新闻广角  ·  马云新年再度现身杭州阿里园区 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

旷视最新HERMES:3D场景理解和生成统一的自动驾驶世界模型

自动驾驶之心  · 公众号  ·  · 2025-02-02 00:00

正文

作者 | 自动驾驶专栏 编辑 | 自动驾驶专栏

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

>> 点击进入→ 自动驾驶之心 世界模型 技术交流群

本文只做学术分享,如有侵权,联系删文

  • 论文链接: https://arxiv.org/pdf/2501.14729
  • 模型和代码链接: https://github.com/LMD0311/HERMES

摘要

本文介绍了HERMES:用于同时3D场景理解和生成的统一自动驾驶世界模型。驾驶世界模型(DWMs)通过实现未来场景预测,已成为自动驾驶的关键部分。然而,现有的DWMs受限于场景生成并且无法加入场景理解,而场景理解涉及对驾驶环境的解释和推理。本文提出了一种统一的驾驶世界模型,称为HERMES。本文通过统一的框架在驾驶场景中无缝集成了3D场景理解和未来场景演变(生成)。具体而言,HERMES利用鸟瞰图(BEV)表示来结合多视图空间信息,同时保留了几何关系和交互。本文还引入了世界查询,它通过大型语言模型(LLM)中的因果注意力将世界知识加入BEV特征中,为理解和生成任务丰富上下文。本文在nuScenes和OmniDrive-nuScenes数据集上进行全面研究,以验证所提出方法的有效性。HERMES实现了最先进的性能,将生成错误减少了32.4%,并且将CIDEr等理解指标提高了8.0%。

主要贡献

本文的主要贡献总结如下:

1)本文提出了HERMES,它训练LLM来理解自动驾驶场景并且同时预测其演变。据作者所知,这是首个能够统一3D理解和生成任务的世界模型;

2)本文引入了世界查询来从文本tokens中获取和集成世界知识,从而确保生成的场景演变不仅结合上下文感知,还通过世界知识得以丰富。该方法有效地弥补了理解和生成任务之间的差距,实现对未来场景更连贯、更准确的预测。

论文图片和表格






总结

本文引入了HERMES,这是一种简单而有效的统一驾驶世界模型,它将3D场景理解和未来场景生成集成到单个框架内。本文通过利用鸟瞰图(BEV)表示并且结合由大型语言模型增强的世界查询,以有效地弥补理解和生成之间的差距。大量的实验验证了所提出方法的有效性,其中HERMES在未来场景预测准确性和理解指标方面取得了显著提升,其超越了最先进的方法。在未来,计划研究一个多模态统一世界模型,它有助于多模态输入和输出。

局限性 :尽管HERMES在统一3D场景理解和生成方面获得了有前景的结果,但是仍然存在一些局限性:1)目前尚未在该框架内探索自动驾驶的感知和规划任务;2)未来图像也是一种重要的生成模态,但是仍有待探索。本文将这些留给了未来工作。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。







请到「今天看啥」查看全文