DriveMLLM：自动驾驶中使用多模态大型语言模型实现空间理解的基准

自动驾驶专栏 · 公众号 · · 2024-11-25 09:10

正文

请到「今天看啥」查看全文

点击下方卡片，关注“ 自动驾驶专栏 ”公众号

自动驾驶干货，即可获取

论文链接： https://arxiv.org/pdf/2411.13112
代码链接：https://github.com/XiandaGuo/Drive-MLLM

摘要

本文介绍了DriveMLLM：自动驾驶中使用多模态大型语言模型实现空间理解的基准。自动驾驶需要全面了解3D环境，以促进运动预测、规划和建图等高级任务。本文引入了DriveMLLM，这是一个专门用于评估自动驾驶中多模态大型语言模型（MLLMs）空间理解能力的基准。DriveMLLM包括2734张前视相机图像，并且引入了绝对和相对空间推理任务以及语言多样的自然语言问题。为了衡量MLLM的性能，本文提出了新的评估指标，该指标着重于空间理解。本文在DriveMLLM上评估了若干种最先进的MLLMs，结果揭示了当前模型在理解驾驶上下文中复杂空间关系方面的局限性。本文认为，这些研究成果突出了对更高级的基于MLLM的空间推理方法的需求，并且强调了DriveMLLM在进一步推动自动驾驶研究方面的潜力。

主要贡献

本文的主要贡献总结如下：

1）本文提出了一种大型基准，称为DriveMLLM，用于使用多模态大型语言模型（MLLM）实现自动驾驶中的空间推理，这是一个尚未讨论过的重要研究课题；

2）本文基于nuScenes数据集建立DriveMLLM，它包括880张图像和各种基于自然语言的问题。DriveMLLM引入了绝对和相对空间关系推理任务，这对于实现全面的自动驾驶场景理解是至关重要的；

3）本文在各种MLLM模型上验证了DriveMLLM，结果表明，大多数MLLM模型在自动驾驶空间理解方面的能力不足。反过来，它展现了本文引入的DriveMLLM基准对于促进进一步研究的重要性和巨大潜力。

论文图片和表格

总结

本文从nuScenes数据集中采集数据，并且构建了首个包含8个方面问题的基准，以评估自动驾驶场景下的空间理解能力。结果突显了MLLMs在自动驾驶上下文中实现空间推理的当前能力和局限性。尽管Gemini-1.5-Flash等模型展现出有前景的性能，但是在实现人类水平的理解方面仍然存在差距，特别是在绝对空间任务中。本项工作的局限性也是很明显，它仅提出了DriveMLLM基准，但是没有提出一种明确的方法来提升MLLMs的空间能力。未来的工作应该探索高级的训练技术，并且结合特定领域的知识来提高MLLMs的空间理解能力。

点击下方卡片，关注“ 自动驾驶专栏 ”公众号

自动驾驶干货，即可获取

【自动驾驶专栏论文速递】是自动驾驶专栏推出的板块，争取每日更新！旨在引领自动驾驶领域相关人员快速了解行业最新技术，对于具有代表性的研究成果，也会进行详细解读！请大家多多支持！蟹蟹~