视觉语言模型(VLMs)的最新进展使其在自动驾驶的视觉问答(VQA)中变得至关重要,实现了自然的人机交互。然而,现有方法在动态驾驶环境中往往表现不佳,因为它们通常专注于静态图像或视频,并依赖降采样以管理计算成本。这导致关键细节的丢失,以及空间和时间信息的有效整合的困难,这对细粒度感知和时间连贯性是有效决策的关键。
为了解决这些问题,作者提出了一种名为LaVida Drive的新颖且高效的VQA框架。LaVida Drive在保持高分辨率输入的同时,将时间数据无缝集成。
它通过保留高分辨率数据以处理复杂的细节,并使用低分辨率输入进行时间分析以关注与运动相关的特征,从而提高计算效率。作者的方法实现了168倍的 Token 压缩,同时达到最佳性能,这是传统方法的重大改进。
LaVida Drive的核心由两个模块组成: Query 感知的 Token 选择模块和空间-时间 Token 恢复与增强模块。前者根据输入 Query 与语义对齐动态选择最相关的视觉 Token ,从而将 Token 数量从高分辨率空间输入减少。
后者确保了空间和时间信息之间的平滑和连贯交互,在跨帧之间保持上下文连续性。在各种自动驾驶VQA基准测试上的广泛实验表明,LaVida Drive显著减少了视觉 Token ,提高了效率,并改进了整体性能。
1 Introduction
近年来,大规模预训练的先进技术使VLMs成为自动驾驶领域中的关键工具,通过自然语言实现了直观的人机交互。VLMs有助于视觉和语言信息的无缝集成,使车辆能够实时理解和回应复杂的 Query ,快速且显著地提高了系统的整体性能和可靠性。
尽管取得了显著进展,现有的方法主要侧重于静态图像或视频,并依赖于低分辨率输入以降低计算成本,这导致了关键的高分辨率细节的丢失以及空间和时间信息的有效集成困难。特别是在动态驾驶环境中,下采样会损害细粒度的感知和时间连贯性,从而阻碍有效的决策制定。在静态感知和运动检测的高分辨率、多帧设置中,效率和准确性的平衡显著增加推理成本,这在VLM开发中构成了重大挑战。
为了应对这些挑战,作者提出了LaVida Drive,这是一个创新性的视觉问答(VQA)框架,旨在在动态驾驶环境中支持高分辨率视觉输入的细粒度感知,同时集成时间信息。具体而言,在空间处理方面,该框架保留高分辨率输入以捕捉丰富的细节,并在运动相关特征上使用较低分辨率的处理,从而在不影响视觉准确性的前提下降低计算负载。然而,在多个视点上维持高分辨率空间输入会极大地增加 Token 的数量,导致视觉语言模型(VLMs)的推理开销显著增加。
为了解决这个问题,作者引入了_Query-aware Token Selection_机制,该机制根据语义内容动态选择与输入 Query 高度相关的视觉 Token ,实现自适应 Token 过滤,从而显著减轻计算负担[11, 26]。由于 Token 选择会破坏空间连贯性并损害 Token 之间的上下文关系,作者引入了一个_Spatial-temporal Token Enhancement_模块,通过使用跨注意力机制实现帧间一致的信息流,确保不同空间和时间上下文之间的连贯性,实现平滑、连贯的多帧信息传递。
作者在多个自动驾驶视觉问答(VQA)基准测试上验证了LaVida Drive,结果显示在图像-文本对齐和多模态信息处理方面取得了显著的改进。作者的模型将视觉 Token 减少了50%至84%,在提高推理效率的同时保持了性能。
主要贡献包括:
-
提出一种新颖高效的可视问答框架,该框架将时间数据无缝集成到高分辨率空间输入中,从而提高计算效率和详细视觉感知。
-
提出一种新颖的 Query 感知 Token 选择机制,该机制能够动态地提取关键信息用于问答,并展示其在平衡计算成本和性能方面的有效性。
-
提出一个结合多模态和多尺度信息的 Token 增强机制,确保空间和时间信息之间的平滑、连贯交互,并保留跨多个帧的上下文连续性。
2 Related Works
近年来,自动驾驶领域的自主驾驶AI取得了突破性的进展,这得益于视觉和语言模型的结合,从而在感知和决策能力上都有所提升。
文献可以分为两大主要领域:用于自动驾驶的视觉型语言模型和自动驾驶中的问答系统。
Vision-based LLMs for Autonomous Driving
视觉和语言模型的集成在增强自主车辆的感知能力方面展现出巨大的潜力,使它们能够更好地理解和导航复杂的驾驶环境。在这个领域早期的研究包括基于CLIP的方法[16],它们将视觉表示与文本描述配对,从而丰富地理解了车辆周围的环境。最近的研究,如[31]和[28]提出的,将视觉和文本输入的大型多模态模型用于支持决策。这些模型在大规模数据集上进行预训练,并在场景解释和预测动态交通场景中的车辆行为等方面取得了改进。
基于 Transformer 模型的视觉语言融合也推动了自动驾驶领域的积极发展。例如,[5] 提出了一种结合深度视觉 Transformer 和大规模语言模型的模型,通过增强车辆生成复杂驾驶计划的能力,提高了决策能力。这些模型在处理实时视觉输入的同时,利用预训练知识来解释高级线索,如道路状况和交通规则。最近,[29] 展示了多模态语言模型的推理能力,在端到端自动驾驶框架中进行推理,使车辆能够处理需要视觉和语言推理的全新驾驶情况。
此外,VLMs的出现为提升自动驾驶系统开辟了新的途径。例如,[13]提出了NuScenes-QA,这是一项针对自动驾驶场景的VQA(视觉问答)基准测试,它解决了多模态数据和实时采集的复杂性。同样地,[19]提出了一种基于VLMs的方法DriveLM,该方法将网络规模的数据集成起来,以增强对人类用户的泛化和互动性。这些进展突显了VLMs在解决自动驾驶面临的精细挑战方面的潜力,例如理解动态环境以及实时做出明智的决策。
Question Answering Systems for Autonomous Driving
QA系统在提高人与车辆交互和促进自主决策方面发挥了重要作用。在自动驾驶中,这些系统帮助车辆处理自然语言 Query ,并根据视觉输入和现有知识提供情境感知答案。例如,[27]开发了一种结合卷积神经网络和语言模型的视觉QA系统,使自动驾驶车辆能够回答有关附近物体和道路状况的问题。该系统允许乘客实时提出问题,并收到准确、针对情境的回答。
进一步发展了情境问答[4],显著提高了车辆解析复杂驾驶场景的能力。通过利用多模态输入,这些系统能够提供更准确的交通流量、行人行动或车辆接近等问题的答案。此外,近年来基于对话的问答系统也取得了进展,使驾驶员和车辆之间的互动更加动态。例如,[8] 引入了一个对话式问答框架,其中车辆可以回答问题并参与多轮对话,根据不断变化的交通状况和用户偏好调整他们的回答。这使得乘客和车辆之间的沟通更加顺畅,提高了整体驾驶体验和安全性。
[23] 最近的研究探索了将基于规则的推理与大规模语言模型相结合的混合模型,使车辆在复杂环境中的实时决策过程更准确地模拟人类般的推理。他们的研究侧重于在遇到未预见的障碍物或行人的模糊驾驶情况下提供准确且安全的驾驶建议。此外,将 LLMs 集成到 QA 系统中展示出巨大的潜力。例如,[3] 提出了一种独特的目标级多模态 LLM 架构,将向量化的数值模态与预训练的 LLM 相结合,以提高驾驶情境下的上下文理解。这种方法不仅增强了驾驶行为的可解释性,还展示了与传统行为克隆方法相比,基于 LLM 的驾驶行为生成的潜力。
3 Method
Architecture Overview
如图2所示,LaVida Drive架构包含三个核心组件:多模态编码集群、 Query 感知 Token 选择模块和空间-时间 Token 增强模块。该模型处理来自三个模态的输入:自动驾驶车辆的多视角摄像头图像数据、视频数据以及用户提供的自然语言指令。与先前的方法不同,作者采用多个编码器来处理各种输入模态,形成一个
多模态编码集群
,以更好地满足每个数据源的独特需求。所有编码器都被冻结。具体而言,每个编码器处理的数据按照预定义的格式:
文本编码器:
作者的文本编码器采用了CLIP文本编码器,利用大规模文本-图像对比学习获得的强大的特征提取能力。对于包含
个 Token 的输入文本序列
,编码器处理每个 Token Embedding ,并将整个序列映射到语义空间。文本编码器的输出是一个形状为
的矩阵,表示为:
图像编码器也使用了CLIP视觉编码器,基本分辨率是224x224像素。这个编码器可以将视觉数据高效地映射到丰富的语义空间,并分为_主分支_和_支持分支_,每个分支针对图像表示的不同方面进行了优化。
图像编码器主分支:对于主分支,输入图像
的大小为
。首先,将输入图像分割成
个大小为
的 Patch 。每个 Patch 都被扁平成一个长度为
的向量,形成一个 Patch 序列,维度为
。主分支从CLIP视觉编码器的最末层生成形状为
的嵌入,表示为:
图像编码支持分支:为了补充主分支中由于patch分割引起的上下文损失,支持分支直接处理降采样后的整个图像
,其大小为
。支持分支还从CLIP视觉编码器的最后一级生成形状为
的嵌入,表示为: