专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

清华大学与NUS联合提出LaVida Drive：用于自动驾驶的视觉-文本交互VLM

智能车情报局 · 公众号 · 科技自媒体 · 2024-12-22 16:19

正文

大会预告

1月14日，第四届全球自动驾驶峰会 将在北京举办。峰会主会场将进行开幕式、端到端自动驾驶创新论坛，分会场将进行城市NOA专题论坛，和自动驾驶视觉语言模型、自动驾驶世界模型两场技术研讨会。目前，中科院自动化所副研究员张启超，北汽研究总院智能网联中心专业总师林大洋，昇启科技创始人孙琪，百度Apollo开放平台首席架构师胡旷，朗歌科技副总经理、智驾地图事业部总经理李战斌已确认参会并将带来主题分享。

👀

导读

视觉语言模型（VLMs）的最新进展使其在自动驾驶的视觉问答（VQA）中变得至关重要，实现了自然的人机交互。然而，现有方法在动态驾驶环境中往往表现不佳，因为它们通常专注于静态图像或视频，并依赖降采样以管理计算成本。这导致关键细节的丢失，以及空间和时间信息的有效整合的困难，这对细粒度感知和时间连贯性是有效决策的关键。

为了解决这些问题，作者提出了一种名为LaVida Drive的新颖且高效的VQA框架。LaVida Drive在保持高分辨率输入的同时，将时间数据无缝集成。

它通过保留高分辨率数据以处理复杂的细节，并使用低分辨率输入进行时间分析以关注与运动相关的特征，从而提高计算效率。作者的方法实现了168倍的 Token 压缩，同时达到最佳性能，这是传统方法的重大改进。

LaVida Drive的核心由两个模块组成：Query 感知的 Token 选择模块和空间-时间 Token 恢复与增强模块。前者根据输入 Query 与语义对齐动态选择最相关的视觉 Token ，从而将 Token 数量从高分辨率空间输入减少。

后者确保了空间和时间信息之间的平滑和连贯交互，在跨帧之间保持上下文连续性。在各种自动驾驶VQA基准测试上的广泛实验表明，LaVida Drive显著减少了视觉 Token ，提高了效率，并改进了整体性能。

Introduction

近年来，大规模预训练的先进技术使VLMs成为自动驾驶领域中的关键工具，通过自然语言实现了直观的人机交互。VLMs有助于视觉和语言信息的无缝集成，使车辆能够实时理解和回应复杂的 Query ，快速且显著地提高了系统的整体性能和可靠性。

尽管取得了显著进展，现有的方法主要侧重于静态图像或视频，并依赖于低分辨率输入以降低计算成本，这导致了关键的高分辨率细节的丢失以及空间和时间信息的有效集成困难。特别是在动态驾驶环境中，下采样会损害细粒度的感知和时间连贯性，从而阻碍有效的决策制定。在静态感知和运动检测的高分辨率、多帧设置中，效率和准确性的平衡显著增加推理成本，这在VLM开发中构成了重大挑战。

为了应对这些挑战，作者提出了LaVida Drive，这是一个创新性的视觉问答（VQA）框架，旨在在动态驾驶环境中支持高分辨率视觉输入的细粒度感知，同时集成时间信息。具体而言，在空间处理方面，该框架保留高分辨率输入以捕捉丰富的细节，并在运动相关特征上使用较低分辨率的处理，从而在不影响视觉准确性的前提下降低计算负载。然而，在多个视点上维持高分辨率空间输入会极大地增加 Token 的数量，导致视觉语言模型（VLMs）的推理开销显著增加。

为了解决这个问题，作者引入了_Query-aware Token Selection_机制，该机制根据语义内容动态选择与输入 Query 高度相关的视觉 Token ，实现自适应 Token 过滤，从而显著减轻计算负担[11, 26]。由于 Token 选择会破坏空间连贯性并损害 Token 之间的上下文关系，作者引入了一个_Spatial-temporal Token Enhancement_模块，通过使用跨注意力机制实现帧间一致的信息流，确保不同空间和时间上下文之间的连贯性，实现平滑、连贯的多帧信息传递。

作者在多个自动驾驶视觉问答（VQA）基准测试上验证了LaVida Drive，结果显示在图像-文本对齐和多模态信息处理方面取得了显著的改进。作者的模型将视觉 Token 减少了50%至84%，在提高推理效率的同时保持了性能。

主要贡献包括：

提出一种新颖高效的可视问答框架，该框架将时间数据无缝集成到高分辨率空间输入中，从而提高计算效率和详细视觉感知。
提出一种新颖的 Query 感知 Token 选择机制，该机制能够动态地提取关键信息用于问答，并展示其在平衡计算成本和性能方面的有效性。
提出一个结合多模态和多尺度信息的 Token 增强机制，确保空间和时间信息之间的平滑、连贯交互，并保留跨多个帧的上下文连续性。

Related Works

近年来，自动驾驶领域的自主驾驶AI取得了突破性的进展，这得益于视觉和语言模型的结合，从而在感知和决策能力上都有所提升。

文献可以分为两大主要领域：用于自动驾驶的视觉型语言模型和自动驾驶中的问答系统。

Vision-based LLMs for Autonomous Driving

视觉和语言模型的集成在增强自主车辆的感知能力方面展现出巨大的潜力，使它们能够更好地理解和导航复杂的驾驶环境。在这个领域早期的研究包括基于CLIP的方法[16]，它们将视觉表示与文本描述配对，从而丰富地理解了车辆周围的环境。最近的研究，如[31]和[28]提出的，将视觉和文本输入的大型多模态模型用于支持决策。这些模型在大规模数据集上进行预训练，并在场景解释和预测动态交通场景中的车辆行为等方面取得了改进。

基于 Transformer 模型的视觉语言融合也推动了自动驾驶领域的积极发展。例如，[5] 提出了一种结合深度视觉 Transformer 和大规模语言模型的模型，通过增强车辆生成复杂驾驶计划的能力，提高了决策能力。这些模型在处理实时视觉输入的同时，利用预训练知识来解释高级线索，如道路状况和交通规则。最近，[29] 展示了多模态语言模型的推理能力，在端到端自动驾驶框架中进行推理，使车辆能够处理需要视觉和语言推理的全新驾驶情况。

此外，VLMs的出现为提升自动驾驶系统开辟了新的途径。例如，[13]提出了NuScenes-QA，这是一项针对自动驾驶场景的VQA（视觉问答）基准测试，它解决了多模态数据和实时采集的复杂性。同样地，[19]提出了一种基于VLMs的方法DriveLM，该方法将网络规模的数据集成起来，以增强对人类用户的泛化和互动性。这些进展突显了VLMs在解决自动驾驶面临的精细挑战方面的潜力，例如理解动态环境以及实时做出明智的决策。

Question Answering Systems for Autonomous Driving

QA系统在提高人与车辆交互和促进自主决策方面发挥了重要作用。在自动驾驶中，这些系统帮助车辆处理自然语言 Query ，并根据视觉输入和现有知识提供情境感知答案。例如，[27]开发了一种结合卷积神经网络和语言模型的视觉QA系统，使自动驾驶车辆能够回答有关附近物体和道路状况的问题。该系统允许乘客实时提出问题，并收到准确、针对情境的回答。

进一步发展了情境问答[4]，显著提高了车辆解析复杂驾驶场景的能力。通过利用多模态输入，这些系统能够提供更准确的交通流量、行人行动或车辆接近等问题的答案。此外，近年来基于对话的问答系统也取得了进展，使驾驶员和车辆之间的互动更加动态。例如，[8] 引入了一个对话式问答框架，其中车辆可以回答问题并参与多轮对话，根据不断变化的交通状况和用户偏好调整他们的回答。这使得乘客和车辆之间的沟通更加顺畅，提高了整体驾驶体验和安全性。

[23] 最近的研究探索了将基于规则的推理与大规模语言模型相结合的混合模型，使车辆在复杂环境中的实时决策过程更准确地模拟人类般的推理。他们的研究侧重于在遇到未预见的障碍物或行人的模糊驾驶情况下提供准确且安全的驾驶建议。此外，将 LLMs 集成到 QA 系统中展示出巨大的潜力。例如，[3] 提出了一种独特的目标级多模态 LLM 架构，将向量化的数值模态与预训练的 LLM 相结合，以提高驾驶情境下的上下文理解。这种方法不仅增强了驾驶行为的可解释性，还展示了与传统行为克隆方法相比，基于 LLM 的驾驶行为生成的潜力。

Method

Architecture Overview

如图2所示，LaVida Drive架构包含三个核心组件：多模态编码集群、 Query 感知 Token 选择模块和空间-时间 Token 增强模块。该模型处理来自三个模态的输入：自动驾驶车辆的多视角摄像头图像数据、视频数据以及用户提供的自然语言指令。与先前的方法不同，作者采用多个编码器来处理各种输入模态，形成一个 多模态编码集群 ，以更好地满足每个数据源的独特需求。所有编码器都被冻结。具体而言，每个编码器处理的数据按照预定义的格式：

图像编码器也使用了CLIP视觉编码器，基本分辨率是224x224像素。这个编码器可以将视觉数据高效地映射到丰富的语义空间，并分为_主分支_和_支持分支_，每个分支针对图像表示的不同方面进行了优化。

图像编码器主分支：对于主分支，输入图像的大小为。首先，将输入图像分割成个大小为的 Patch 。每个 Patch 都被扁平成一个长度为的向量，形成一个 Patch 序列，维度为。主分支从CLIP视觉编码器的最末层生成形状为的嵌入，表示为：

图像编码支持分支：为了补充主分支中由于patch分割引起的上下文损失，支持分支直接处理降采样后的整个图像，其大小为。支持分支还从CLIP视觉编码器的最后一级生成形状为的嵌入，表示为：

视频编码器： 视频编码器基于TimeSformer模型，对帧序列进行时间建模。给定输入序列，其中帧，每帧具有空间维，编码器捕获帧间依赖关系以生成时间表示。输出是一个大小为的嵌入序列，表示为：

接下来，作者使用 Query 感知 Token 选择模块，该模块处理图像编码器与文本编码器输出的 Token 以生成 Token Level 的相似度矩阵，其中表示图像 Token 的数量，表示文本 Token 的数量。通过利用空间语义相似性，该模块识别出与用户 Query 最相关的视觉 Token ，从而在保留高质量 Token 的同时减少视觉 Token 的数量。最后，时空 Token 增强模块利用视频编码器的输出和图像编码器的多帧辅助信息通过交叉注意力机制恢复和增强 Token 。该模块的目的是在 Token 选择中恢复丢失的上下文，并聚合时间信息，而不增加额外的 Token 数量，如第3.3节所述。

作者首先计算归一化相似度矩阵：

对于每个单词，作者都计算其与所有其他单词的相似度，并将结果归一化。具体而言，作者将每个单词的相似度除以其与所有其他单词相似度的平均值。这样，相似度矩阵的每个元素都是介于0和1之间的值，它们表示单词之间的相似程度。

接下来，作者将相似度矩阵转换为对角矩阵，其中对角线上的元素表示单词之间的最相似关系。

最后，作者计算对角线上的元素的总和，并将其作为整个词向量的相似度。这个相似度值表示词向量与整个语料库中的词向量之间的相似程度。

清华大学与NUS联合提出LaVida Drive：用于自动驾驶的视觉-文本交互VLM

正文

Introduction

Vision-based LLMs for Autonomous Driving

Question Answering Systems for Autonomous Driving

Architecture Overview

请到「今天看啥」查看全文