鸟瞰视角(BEV)的3D感知在自动驾驶应用中起着关键作用。大型语言模型的出现激发了基于BEV的标注研究兴趣,以了解周围环境中的物体行为。
然而,现有方法将感知和标注视为 separate 任务,只关注其中一个任务的表现,而忽略了多模态对齐的潜在优势。为了弥合这种模式之间的鸿沟,作者提出了一种新颖的多模态任务对齐框架MTA,该框架可以提高BEV感知和标注。
MTA 包含两个关键组成部分:
一是 BEV-语言对齐(BLA),这是一种上下文学习机制,将BEV场景表示与 GT 语言表示对齐;
二是 检测-标注对齐(DCA),这是一种跨模态 Prompt 机制,将检测和标注输出对齐。MTA 在训练中集成到最先进的 Baseline 中,运行时无需增加额外的计算复杂度。
在nuScenes和TOD3Cap数据集上的广泛实验表明,MTA 明显优于最先进的 Baseline ,在感知方面实现了4.9%的改进,在标注方面实现了9.2%的改进。这些结果强调了统一对齐在解决BEV感知和标注方面的有效性。
1 Introduction
3D感知是具有身体AI应用(如机器人技术和自动驾驶)的基本且关键任务。在3D感知方法中,基于鸟瞰视角(BEV)的方法最近获得了显著的关注,特别是在自动驾驶任务背景下。与单目框架分别处理每个摄像机视图不同,BEV通过融合多视图摄像机图像或其他传感器输入(如LiDAR扫描)的信息,为解决下游自动驾驶任务(如检测和跟踪)提供了一个统一的场景表示。生成的BEV表示是解决自动驾驶任务的主要信息来源。
近年来,基于 Transformer 的BEV方法取得了快速发展,使得可以从多视图摄像头图像中提取出时空整体的周围环境表示 [20, 43]。这些丰富的表示帮助实现了最先进的3D感知性能。基础模型的兴起,如多模态大型语言模型(MLLMs),导致了关于3D场景可解释性和理解的研究的出现。这表现为一个描述场景中物体定位、上下文和行为的自然语言字幕任务。3D字幕已在各种室内应用中广泛研究 [7, 8] 并最近扩展到户外应用,如自动驾驶的感知任务 [16]。基于BEV的3D字幕从BEV和任务头中提取信息,并将其用作字幕生成的条件。
尽管关于BEV感知和字幕生成任务的研究日益增多,但跨模态的联合对齐,旨在提高两种模态任务的表现,尚未得到充分关注。特别地,一些工作专注于基于BEV的检测,但没有考虑字幕生成的性能[20],而另一些工作专注于字幕生成的性能,但没有报告在感知任务如3D检测[16]上的表现。然而,这两种任务并非互不相关,可以通过施加具有在自动驾驶应用中的3D感知和字幕生成领域取得重大进步的多模态对齐策略来相互补充。
为了弥合这一差距,作者提出了MTA,一种用于BEV感知和描述的跨模态任务对齐方法。所提出的MTA方法有两种对齐机制,即BEV-语言对齐(BLA)和检测-描述对齐(DCA)。BLA引入了一种多模态上下文学习机制,该机制将 GT 描述表示集成到模型中,以学习场景中BEV视觉表示和基于自然语言的场景理解之间的对齐。BLA不仅仅依赖语言建模目标,而是通过将基于BEV的上下文目标 Query 与从预训练文本编码器获得的相应 GT 语言表示对齐,为模型提供额外的监督。另一方面,DCA旨在明确促进视觉分支和语言分支的感知输出与描述输出的对齐一致性。DCA引入了一种跨模态 Prompt 机制,鼓励MLLM生成与预测边界框和类别标签一致的描述。DCA超越了仅依赖单一模态目标梯度(检测损失或语言建模损失)来优化任务头或MLLM。
MTA是一个灵活的框架,可以无缝集成到现有的基于BEV的感知和字幕框架中。此外,提出的MTA模块仅在训练时间使用,以强制不同模态之间的对齐。因此,MTA不需要任何架构更改,也不会在推理时间引入任何额外的计算开销,这对像自动驾驶等下游任务至关重要。在本文中,作者使用具有挑战性的大规模nuScenes[2]和TOD3Cap数据集[16]评估MTA在最新框架上的重要性。实验结果显示,MTA在感知和字幕任务上都超过了以前的最佳 Baseline 。特别是,MTA在感知和字幕指标方面分别比对应的最佳 Baseline 提高了4.9%和9.2%。此外,定性结果进一步确认了定量结果,表明MTA不仅实现了优越的性能指标,还减少了虚假字幕的出现,这在像自动驾驶等安全关键应用中是一个基本因素。
作者的主要贡献可以概括如下:
-
作者提出了一种名为MTA的新颖多模态任务对齐框架,该框架将基于BEV的感知与描述任务之间的问题进行了桥接。
-
MTA 提出了两个新的对齐模块,分别是 BEV-语言对齐 (BLA) 和检测-字幕对齐 (DCA),它们分别通过多模态上下文学习和对跨模态 Prompt 机制的强制对齐来执行对齐。
-
MTA能够无缝集成到现有架构中,并且在推理过程中不引入任何额外的计算开销,因为MTA的两个组件只在训练时才处于活动状态。
广泛的实验表明,MTA在极具挑战性的nuScenes和TOD3Cap数据集上,始终优于当前最先进的方法,并且在感知和描述任务上都表现出色。
2 Related Work
BEV Perception
近年来,BEV框架利用了生成高质量BEV特征图的 Transformer 架构。在这些工作中,BEVFormer通过将多视角摄像头图像的空间和时间信息融合,实现了对场景的时空整体表示。另一个在该领域具有突出意义的工作是BEVFusion,它提出了一种将来自摄像头和LiDAR传感器的BEV特征图进行融合的框架,以实现高效和鲁棒的BEV感知[24]。这些在BEV感知方面的进步为自动驾驶应用中更全面地理解3D环境奠定了基础。
3D Captioning
3D captioning旨在为给定场景中的物体的定位和行为提供自然语言描述。近年来,由于多模态大型语言模型和大量公共数据集的快速出现,3D captioning领域取得了显著进展,主要应用于室内场景。这些进展激发了实体AI社区收集3D captioning数据集并开发适用于室外应用(如自动驾驶)的3D captioning框架。在这方面的一项突出工作是TOD3Cap[16],它为自动驾驶发布了大型 captioning 数据集,并提出了基于BEV的3D密集captioning框架。该框架利用BEV和3D感知输出的信息作为输入,用于向MLLM生成caption。
尽管在这些BEV感知和3D描述方面的进步,但仍然存在一个重大的差距,即共同优化和调整这两种模态以提高两种任务的表现,作者将在本研究中通过提出的MTA框架来解决这一问题。
Vision-Language Models
视觉语言模型(VLMs),在大量互联网规模的数据上进行训练,在下游任务中学习良好的表示具有强大的潜力。例如,CLIP [32]、ALIGN [13] 和 Florence [40, 44] 预训练了百万到十亿级的图像文本对,在各种任务(如图像分类和检索)上表现出强大的零样本性能。
随后的研究提出了将 VLMs 有效地适应新领域和数据集的策略 [17, 47]。最近,VLMs 在基于BEV的自动驾驶应用中得到了探索,其中它们要么用于场景理解 ,要么用于改进自动驾驶任务(如感知和规划)的性能 。与以前的方法不同,MTA 强调在视觉和语言模式之间提高对齐,以共同增强 BEV 感知和描述任务。
3 Methodology
概述.多模态任务对齐(MTA)的整体框架如图1所示,该框架旨在增强BEV感知和描述任务之间的对齐,以实现在这两个任务上都达到最先进性能。以下是方法论部分的概述。在3.1节,作者提供了关于BEV感知和描述任务的背景。在3.2和3.3节中,作者详细介绍了所提出的MTA对齐机制,即BEV-语言对齐和检测-描述对齐。最后,在3.4节中,作者提供了训练MTA框架的整体损失函数。
Preliminaries
BEV感知模块。BEV感知模块
处理诸如摄像头、LiDAR或两者结合的传感器输入,以获得周围环境的统一上下文表示。在给定的摄像头传感器背景下,通过 Backbone 网络处理多视图摄像头图像,以获得多视图摄像头特征。随后,将得到的视角视图特征输入BEV编码器,如BEVformer,通过空间-时间融合将这些图像特征提升到BEV空间[20]。
随后,生成的BEV特征图被输入到下游任务头,例如一个用于3D检测的Transformer解码器[38]。由于缺乏真实的BEV地图,BEV感知被端到端地训练,目标是最小化任务头损失函数。任务头的评估性能可以作为BEV感知质量的 Agent 。
BEV字幕模块。BEV字幕模块
的目标是生成场景中物体的定位和行为的自然语言描述。它将BEV感知输出,如BEV特征图和任务 Head 提供的物体 Proposal ,作为输入。通常采用关系 Query Transformer (Q-Former)来提取和从BEV感知中转移上下文信息到语言空间[16, 19, 37]。具体而言,Q-Former 将每个检测到的物体的嵌入映射到语言空间如下:
其中
表示连接操作,
表示检测Head的检测嵌入,
表示来自 BEV 编码器的 BEV 特征图,
是 Q-Former 中 Transformer 模块的总数。然后,使用多层感知机(MLP)将精炼的目标 Query 投影到 MLLM 的潜在维度:
, 其中
表示投影的 Query ,
是 MLP。MLLM 将投影的 Query
和语言 Prompt
作为输入,并为每个目标生成字幕。
BEV-Language Alignment
作者的目标是弥合基于BEV的场景表示用于3D检测和MLLM的语言场景理解和推理能力的鸿沟。然而,现成的MLLM无法直接理解和推理BEV特征,因为在它们的预训练阶段,它们没有接触到这样的表示。此外,BEV特征与MLLM的语言空间之间的对齐差距要大于通用MLLM中使用的视觉 Token [9]。
为应对这一挑战,作者提出了一种新颖的BEV-语言对齐(BLA)模块,该模块明确地将BEV感知特征与相应的 GT 语言表示进行对齐。通过将Q-Former的视觉BEV特征与 GT 描述特征进行对齐,作者增强了BEV感知和描述模块之间的对齐,使MLLM能够更好地理解和推理BEV表示。
正式地,BLA模块的工作如下。给定一个真实描述
,作者使用一个预训练的CLIP文本编码器
[32] 来计算其文本嵌入。然后,作者提取来自Q-Former的
层隐藏状态的投影特征
,其中
表示Q-Former的第
层的隐藏状态,
是一个可训练的投影头,参数化为一个MLP。通过以下均方误差损失来强制对齐:
概念上,增强的Q-Former可以被视为一个两阶段过程。在第一阶段(在l层之前),Q-Former通过关注BEV特征,学习物体 Query 的上下文感知表示。这一阶段允许Q-Former捕捉BEV表示中编码的时空关系和语义,并利用基于表示的直接监督。在第二阶段(从l层开始),Q-Former将物体 Query 特征映射到MLLM对齐的空间,使其更易于MLLM的语言推理能力。
Detection-Captioning Alignment
当前基于BEV的感知和标注框架中,3D检测和标注任务通常独立优化,这可能导致性能不佳和预测边界框与生成的标注之间缺乏一致性。为了解决这个问题,作者进一步提出了一个检测-标注对齐(DCA)模块,旨在弥合检测和标注输出的差距。这里的主要挑战在于检测标签(类别标签和边界框坐标)与标注logits(语言 Token )之间的显著差异。直接对齐这些输出可能导致两个任务都性能下降。
作者通过引入跨模态 Prompt 方法来解决这个问题。作者定义了一个可学习的 Prompt Token 集合