点击下方
卡片
,关注“
自动驾驶之心
”公众号
>>
点击进入→
自动驾驶之心
『
世界模型
』
技术交流群
本文只做学术分享,如有侵权,联系删文
本文介绍了HERMES:用于同时3D场景理解和生成的统一自动驾驶世界模型。驾驶世界模型(DWMs)通过实现未来场景预测,已成为自动驾驶的关键部分。然而,现有的DWMs受限于场景生成并且无法加入场景理解,而场景理解涉及对驾驶环境的解释和推理。本文提出了一种统一的驾驶世界模型,称为HERMES。本文通过统一的框架在驾驶场景中无缝集成了3D场景理解和未来场景演变(生成)。具体而言,HERMES利用鸟瞰图(BEV)表示来结合多视图空间信息,同时保留了几何关系和交互。本文还引入了世界查询,它通过大型语言模型(LLM)中的因果注意力将世界知识加入BEV特征中,为理解和生成任务丰富上下文。本文在nuScenes和OmniDrive-nuScenes数据集上进行全面研究,以验证所提出方法的有效性。HERMES实现了最先进的性能,将生成错误减少了32.4%,并且将CIDEr等理解指标提高了8.0%。
本文的主要贡献总结如下:
1)本文提出了HERMES,它训练LLM来理解自动驾驶场景并且同时预测其演变。据作者所知,这是首个能够统一3D理解和生成任务的世界模型;
2)本文引入了世界查询来从文本tokens中获取和集成世界知识,从而确保生成的场景演变不仅结合上下文感知,还通过世界知识得以丰富。该方法有效地弥补了理解和生成任务之间的差距,实现对未来场景更连贯、更准确的预测。
本文引入了HERMES,这是一种简单而有效的统一驾驶世界模型,它将3D场景理解和未来场景生成集成到单个框架内。本文通过利用鸟瞰图(BEV)表示并且结合由大型语言模型增强的世界查询,以有效地弥补理解和生成之间的差距。大量的实验验证了所提出方法的有效性,其中HERMES在未来场景预测准确性和理解指标方面取得了显著提升,其超越了最先进的方法。在未来,计划研究一个多模态统一世界模型,它有助于多模态输入和输出。
局限性
:尽管HERMES在统一3D场景理解和生成方面获得了有前景的结果,但是仍然存在一些局限性:1)目前尚未在该框架内探索自动驾驶的感知和规划任务;2)未来图像也是一种重要的生成模态,但是仍有待探索。本文将这些留给了未来工作。
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。