专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
每天发现一家店  ·  低价捡漏 - 0225 ·  2 天前  
知识星球精选  ·  哪吒出海,凭什么成功? ·  昨天  
极果网  ·  来了!理想纯电SUV ... ·  2 天前  
龙岩发布  ·  晚安 龙岩 | ... ·  3 天前  
龙岩发布  ·  晚安 龙岩 | ... ·  3 天前  
51好读  ›  专栏  ›  智能车情报局

武汉大学提出 DriveMLLM:自动驾驶中多模态大语言模型的空间理解基准!

智能车情报局  · 公众号  ·  · 2024-12-25 16:45

正文

大会预告

1月14日,第四届全球自动驾驶峰会 将在北京举办。峰会主会场将进行开幕式、端到端自动驾驶创新论坛,分会场将进行城市NOA专题论坛,和自动驾驶视觉语言模型、自动驾驶世界模型两场技术研讨会。目前,中科院自动化所副研究员张启超,北汽研究总院智能网联中心专业总师林大洋,昇启科技创始人孙琪,百度Apollo开放平台首席架构师胡旷,朗歌科技副总经理、智驾地图事业部总经理李战斌已确认参会并将带来主题分享。



自动驾驶需要全面理解3D环境,以促进诸如运动预测、规划和映射等高级任务。

在本文中,作者介绍了DriveMLM,这是一个专门用于评估自动驾驶中多模态大型语言模型(MLMMs)空间理解能力的基准。DriveMLM包括2734个正面摄像头图像,并引入了绝对和相对空间推理任务,以及与语言多样性的自然语言问题相伴随。

为了衡量MLLMs的性能,作者提出了关注空间理解的全新评估指标。作者在DriveMLM上评估了几种最先进的MLLM,作者的结果揭示了当前模型在理解驾驶环境中复杂空间关系方面的局限性。

作者认为这些发现强调了需要更先进的基于MLLM的空间推理方法,并突显了DriveMLM推动自动驾驶领域进一步研究的潜力。

代码将在 https://github.com/XiandaGuo/Drive-MLLM上提供。

01

Introduction


自动驾驶系统的一个主要任务是从视觉图像或视频中实现对整体3D场景的全面理解[9],这实际上是实现进一步高级任务(如运动预测,规划[62, 8, 45]和地图构建[73, 19])的基本信息。尽管作者见证了在各种大规模数据集[20, 30, 56]的帮助下,以单个目标为中心的识别任务取得了巨大的进步,包括检测[34, 35],跟踪[38, 24],光学流估计[22, 55]和语义分割[17, 36],但自动驾驶系统在RGB图像中的目标间空间关系推理却未被忽视,尽管它在实现完全全面的3D场景理解方面具有极其重要的意义。

在计算机视觉领域,利用大规模视觉基因组数据集[40]进行图像空间关系推理已经得到了广泛研究[65]。然而,以前的研究主要集中在简单关系上。例如,左右和上下是相对位置关系。这些简单关系远远不能完全代表3D场景中可能存在的复杂空间关系。近年来,大型语言模型(LLM)[58, 70]的出现,极大地解锁了解决各种高级视觉任务的潜力。


虽然作者在多种多模态大型语言模型(MLLM)的各个任务上取得了巨大的进步和戏剧性的进展,但基于自动驾驶的空间理解的多模态大型语言模型仍待解决。如最后两段所述,在MLLM之前的阶段,空间理解普遍关注每个目标识别任务。然而,目标间的空间理解对于实现高级和全面的自动驾驶场景理解至关重要。得益于LLM的巨大潜力和近年来所取得的进步,作者提出通过利用MLLM解决高级、目标间的空间理解。在本文中,作者提出一个名为DriveMLLM的大规模基准,专门针对使用MLLM的自动驾驶空间理解任务。

作者精心挑选自 nuScenes [11] 数据集的 DriveLLM,这是一个大规模的自动驾驶数据集。由于 nuScenes [11] 数据集包含六个摄像头的图像,覆盖了完整的 视野,因此它成为了构建 DriveMLLM 基准的理想数据来源,并确保了精心挑选的基准建立在实际驾驶场景中。
具体而言,作者关注于 nuScenes [11] 数据集的验证分片中正面摄像头的图像。作者挑选了 880 张具有明显物体的图像。在空间关系方面,作者专注于绝对空间推理和相对位置关系推理。作者还进一步构建了语言多样且上下文相似的自然语言问题(如图2 所示),并提出了新的对应评估指标来评估各种 MLLM 的空间理解能力。作者在各种 MLLM 模型上全面评估了 DriveMLLM,如图1 所示。总之,作者对这项工作做出了以下三个主要贡献:
作者提出了一个名为DriveMLLM的大规模基准,用于研究自动驾驶中的多模态大语言模型(MLLMs),这是一个尚未受到高度重视且至关重要的话题。
作者基于nuScenes[11]数据集构建了DriveMLLM。该数据集包含880张图像和多种基于自然语言的疑问。DriveMLLM同时引入了绝对和相对空间关系推理任务,这对于实现对自动驾驶场景的全面理解至关重要。
作者在各种MLLM模型上验证了DriveMLLM,结果显示大多数MLLM模型在自动驾驶空间理解方面存在不足。同时,这也展示了作者引入的DriveMLLM基准在促进进一步研究方面的重要性以及巨大的潜力。

02

Related Work


Multimodal Large Language Models (MLLM)


近年来,得益于大型语言模型的巨大成功 ,一个新的研究领域专注于将基于自然语言的大型模型(尤其是GPT家族LLM)扩展到多模态大型语言模型(MLLM)。在这些模型中,将视觉集成到语言方面取得了戏剧性的进展,已经开发了各种视觉语言模型(VLM)  用于各种跨模态任务,如视觉问答(VQA) 和跨模态推理 ,得益于各种大规模图像文本数据集 。典型的VLM模型包括BLIP家族,LLaVA家族 和 Qwen-VL家族 。它们要么在网络架构上进行创新 ,要么采用新的训练策略 [6, 78]。
例如,在网络架构创新方面,QWen-VL [6] 和 MiniGPT-4  采用ViT [2] 网络作为视觉编码器,LLaVA [61] 则采用 CLIP ViT-L/14 [64] 进行视觉编码,而 InternVL [18] 采用 InternViT-6B [64] 进行视觉编码。在训练策略方面,QWen-VL [6] 采用三阶段策略:首先在大量图像文本对上进行预训练,然后跨七项主要任务进行多任务预训练,最后在超过350,000个对话上进行微调。MiniGPT-4 [78] 采用两阶段训练策略,首先在包括概念性描述 [13],LAION [67] 和 SBU [60] 的复合数据集上进行预训练,然后在高质量图像描述数据集上进行微调。

Multimodal Large Language Models Benchmark


在LLM时代,更多强大而全面的跨模态数据集已经筛选并发布,用于各种整体和多任务评估目的,极大地扩展了设计各种强大跨模态大语言模型框架的可能性。其中,MM-Yes/No [26] 是早期多模态 Yes/No 问题、视觉感知和语言推理任务的基准。MMBench [50] 扩展到涵盖更多主题和更强大的闭环评估设置。SeedBench [42, 41] 引入了更多的输入来源,如多图像输入和视频。
MM-Vet [74] 整合了之前数据集的六个子特征,实现了如OCR、关注识别的任务和数学等多任务推理能力。除了MM-Yes/No [26]、MMBench [50]、SeedBench [42, 41] 和 MM-Vet [74] 主要关注识别外,一些较新的数据集更关注更通用的AI能力。例如,MMMU [75] 收集了大量需要领域知识的疑问,以推动通用AI的边界。
HallusionBench [33] 数据集旨在模拟语言和视觉幻觉现象。MathVista [54] 专门针对基于图像(如图表、表格和示意图)的数学为中心的视觉问题。BLINK [27] 数据集引入了人类 Level 的感知能力,以实现整体视觉感知。Mega-Bench [14] 将多模态评估扩展到超过500个实际任务。尽管这些各种基准,但专注于自动驾驶空间理解的基准仍然缺失,作者将在本工作中填补这一空白。

03

DriveMLLM Benchmark


近年来,MLLMs被直接用于自动驾驶和具身智能,这些技术严重依赖复杂的空间感知和推理。然而,这些工作缺乏对MLLMs的空间推理能力的详细调查,以证明当前MLLMs在空间信息方面的可靠性。在本节中,作者介绍了如何构建DriveMLLM基准,其中3.1节提供了作者构建这个基准的数据源的详细描述。3.2节提供了标签构建和过滤过程的详细说明。

Data Source


作者构建了作者的基准,使用了来自nuScenes  数据集的数据,这是一个专门为自动驾驶研究设计的大规模公共数据集。该数据集收集了丰富的传感器数据,包括来自六个覆盖360°全景的摄像头的图像,以及LiDAR、雷达和GPS/IMU数据。该数据集在波士顿和新加坡的都市环境中 captured ,特征多种交通状况、天气场景和昼夜时间。这种多样性确保了模型在各种真实世界驾驶场景上进行测试,从而增强了评估的鲁棒性。
对于作者的基准,作者关注于nuScenes [11]数据集的验证子集中的正面摄像头图像。这个子集包括具有动态和静态目标的复杂场景,如车辆和行人。这些图像具有高分辨率,并附带全面的标注,因此对于需要详细空间理解的任务来说,它们是理想的选择。

Data Filtering


作者通过仔细的数据筛选和优化过程,构建了一个包含880张图像的数据集。这一多步骤的筛选过程确保了每张图像都支持明确的空间推理。数据筛选过程包括以下四个主要步骤:
作者首先从 nuScenes [11] 数据集的验证集提取图像。这一初始选择产生了6019张包含感兴趣物体的图像,如车辆和行人。

04

Filtering for

Validity and Relevance


为了确保其适用于空间推理评估,作者采用了严格的筛选标准:


边重滤波器: 作者排除了不在图像内的目标的中心,因为它们过于边缘,不适合有效评估(参见图3(a))。这保持了正在分析目标的完整性。
目标大小滤波器: 宽度小于40像素的行人边界框和面积小于2000像素的车辆边界框被排除,因为它们太小,无法进行可靠评估(参见图3(b))。这确保了目标的充足可见性和可识别性。
遮挡滤波器: 作者删除了具有显著遮挡的图像,定义为重叠物体,其交集面积超过较小边界框(参见图3(c))的30%。这确保了每个物体保持足够的可见性,不会被过度遮挡。
模糊滤波器: 为了减轻歧义,作者排除了包含相同物体类型多个实例的图像(例如,两个人行或多个车辆),如图3(d)所示。这确保了每个图像都呈现了一个独特的、无歧义的物体进行评估。
在应用这些过滤器之后,作者保留了2,734张清晰可见物体的图像。

05

Manual Review

and Final Selection


尽管进行了自动化过滤,但仍有一些图像存在问题,如歧义、遮挡或 未标注 的目标(例如,部分遮挡车辆的岗亭)。为了进一步优化数据集,作者进行了手动审查,并挑选出880张包含单一、明确且可识别属性的清晰目标的图像。

06

Generating Natural

Language Descriptions


为了弥补 nuScenes 数据集中自然语言描述的缺失,这对于评估多模态语言模型至关重要,作者使用一个 13B 参数的 InstructBLIP 模型为每个物体生成标准化描述文本,以最小化特定语言模型的偏见。通过服装(例如,“穿红衬衫的行人”)识别行人,通过颜色(例如,“红卡车”)识别车辆,确保描述的一致性,并支持对模型空间理解的强大评估。

Benchmark Construction


为了评估自动驾驶场景下MLLMs的空间理解能力,并回答上述问题,作者设计了一个全面的基准,主要关注两个关键方面: 绝对空间推理和相对位置关系。
绝对空间推理任务These任务评估模型在图像中确定物体的精确空间信息的能力,需要了解像素 Level 的细节。为了直观理解,作者在图2中可视化这些任务并呈现它们。
物体定位坐标: 模型必须识别并提供图像中指定物体的精确坐标 。该任务测试在图像平面内准确确定物体的能力。
问题: 在图像中的位置是什么?
物体边界框确定: 该任务涉及计算特定物体的边界框坐标 。它评估模型区分物体的空间范围的能力。 问题: 图像中的的边界框是什么?
相机到物体距离估计:模型利用推理出的空间信息计算相机到特定物体的欧几里得距离,以评估模型的深度感知和距离估计能力。
问题:相机距离 有多远?
垂直距离计算: 任务要求根据物体的 坐标计算相机和物体之间的垂直距离。这测试了模型对垂直空间关系的理解。_问题:相机距离 有多远?相对位置关系任务 这些任务评估模型在场景中理解并比较多个物体之间空间关系的能力。为了进一步阐明这些概念,作者在图2中提供了视觉示例。
左侧/右侧物体识别:模型确定图像中两个指定物体中,哪个物体位于更靠左/右侧,通过推理 坐标来测试横向空间推理。问题:哪个物体更靠左/右侧, 还是
前后位置确定:模型根据深度线索判断一个物体是否在前一个物体前方,或是否在后一个物体后方,从而评估对 坐标关系的理解。_问题: 的前面/后面?
物体间距离测量:该任务涉及在三维空间中计算两个物体之间的欧几里得距离,以评估全面的空间推理能力。_问题:${\} {\}$ 之间的距离有多远?
水平距离计算:模型计算两个物体之间的水平距离,定义为它们在 坐标上的绝对差值,以测试精确的横向距离估计。问题: 之间的水平距离是多少?
任务格式和评价协议:
对于每个任务,模型将获得一张图像和一个相应的问题,按照指定的格式格式化。为了确保一致性和方便自动化评估,模型必须在指定的 Token 内输出其答案。

07

Experiment


Experimental Setup


为了评估自动驾驶背景下 MLLMs 的空间推理能力,作者进行了使用之前描述的 DriveMLM 基准的实验。作者选择了包括 GPT-4o, GPT-4o-mini, LLAVA 视觉模型(LLAVA-ov-7b 和 LLAVA-ov-72b), Qwen2-VL 模型(qwen2-vl-7b 和 qwen2-vl-72b)以及 Gemini-1.5-Flash 在内的多种最先进的 MLLM 进行评估。这些模型在规模和训练数据方面存在差异,提供了对不同架构的全面评估。
作者在三种实验设置下测试了每个模型:零样本、单样本和五样本学习。在零样本设置中,模型在没有特定任务示例的情况下进行评估。单样本和五样本设置为模型提供了一个和五个示例,以评估它们利用少样本学习提高性能的能力。
所有模型都使用标准化的提问方式,并要求严格按照指定的格式生成输出,以确保评估过程中的公平性和一致性。

Metrics


为了定量评估模型在DriveMLLM基准测试上的性能,作者定义了一组度量指标,这些指标可以衡量模型在各种任务上的准确性和效率。

4.2.1 Accuracy Metrics


准确度指标量化了模型对不同类型任务预测的正确性。每个样本 的个体准确度 根据任务类型定义如下:
二分类准确率(任务L/R, F/B)对于二分类任务,如左/右(L/R)判断和前/后(F/B)判断,个体准确率 被定义为:
其中:- 是模型对样本 的预测标签。- 是样本 的真实标签。
整体准确性 是由各个个体准确性之和求平均得出的:
基于距离的准确性(任务 RHD、RD、CVD、CD)对于涉及距离测量的任务,如相对水平距离(RHD)、相对距离(RD)、摄像头垂直距离(CVD)和摄像头距离(CD),个体准确性 采用如下公式计算:
在此AI论文中:- 是模型对样本 的预测距离。- 是样本 的真实距离。- 是控制偏差惩罚的缩放因子,设定为
位置定位准确性(任务PPos)对于像素位置定位任务,个体准确性 是基于预测和 GT 坐标的欧几里得距离误差:
在此,作者定义 - 是模型对样本 的预测坐标。- 是样本 的真实坐标。- 是一个缩放因子,设置为
边界框精度(任务BBox)对于边界框定位任务,精度通过预测框和真实框之间的交点与边界的比值(IoU)来衡量:
在此,- 是模型对样本 的预测框。- 是样本 的真实框。 表示框的面积。
聚合准确率得分 聚合准确率得分(AccS)将所有任务和样本的个体准确率进行综合:






请到「今天看啥」查看全文