专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

F-LMM：基于冻结的大型多模态模型的Visual Grounding

FightingCV · 公众号 · · 2024-11-16 09:00

正文

摘要

为大型多模态模型 (LMM) 赋予视觉定位能力可以显著增强人工智能对视觉世界的理解及其与人类的交互。然而，现有方法通常会微调 LMM 的参数以学习额外的分割符元并过度拟合地面定位和分割数据集。这种设计不可避免地会导致通用人工智能助手必不可少的对话能力灾难性下降。在本文中，我们在一套多模态问答基准测试中全面评估了最先进的地面定位 LMM，观察到明显的性能下降，这表明通用知识理解能力下降以及指令遵循能力减弱。为了解决这个问题，我们提出了 F-LMM——在人机对话中对冻结的现成 LMM 进行地面定位——这是一种简单而有效的设计，它基于这样一个事实：有利于视觉定位的词像素对应关系本质上存在于训练良好的 LMM 的注意力权重中。只使用几个可训练的 CNN 层，我们就可以将词像素注意力权重转换为掩码 logits，然后基于 SAM 的掩码细化器可以进一步优化这些 logits。我们的 F-LMM 既不学习特殊的分割符元，也不使用高质量的基于地面定位的指令调优数据，但在指称表达分割和全景叙事定位基准测试中取得了具有竞争力的性能，同时完全保留了 LMM 原有的对话能力。此外，由于指令遵循能力得以保留并获得了定位能力，我们的 F-LMM 可以执行视觉链式思维推理并更好地抵抗物体幻觉。代码和模型将发布在https://github.com/wusize/F-LMM。

图 1 ：一个关于图像的用户-AI 对话示例。左：当提示为 "使用交错掩码回答" 时，最先进的地面定位模型 GLaMM [57] 可有效进行基于地面定位的对话，但无法遵循用户指令回答单个单词（是或否），并将问题误解为指称分割提示。右：我们的 F-LMM 保留了指令遵循能力，同时能够执行视觉定位。

1 引言

作为通用人工智能 (AGI) 的一个关键里程碑，最近的大型多模态模型 (LMM)——将大型语言模型 (LLM) 与视觉信号相结合——在多模态理解、推理和交互方面取得了显著成功 [39, 37, 38, 42, 32, 62, 75] 。为了进一步提升 LMM 的感知能力，最近的研究方向 [77, 28, 57, 58, 67, 80] ，即在用户模型对话中以视觉方式对语言内容进行定位，越来越受到关注。关键短语或单词与视觉对象的这种显式关联极大地增强了 LMM 对视觉世界的理解，并允许进行更直观和更有意义的人工智能交互。

图 2 ： (a) 在冻结的 LMM 的单词图像注意力图的可视化中，观察到有利于视觉定位的几何和空间线索。 (b) 现有的定位 LMM 被微调以生成一个特殊的掩码符元（例如， [SEG] ）用于视觉定位目的，这破坏了原来的对话能力。 (c) 我们的 F-LMM 将冻结的 LMM 的单词图像注意力图转换为定位掩码，同时完全保留了通用聊天能力。

通过设计，一种常用的构建方法（图 2 (b)）用于视觉定位语言内容，即将 LMM 与掩码头（例如， Segment Anything Model (SAM) [26] ）连接，其中 LLM 主干和掩码头都使用准备充分的包含分割标注的视觉定位数据进行微调。此外，一些额外的可学习符元（例如， [SEG] ）被引入到 LMM 的词汇表中，以直接将关键短语或单词与对话中的视觉对象关联起来。然而，这种设计不可避免地会导致 灾难性的下降 ，因为以下原因导致通用知识理解和指令遵循能力下降。首先，现有的分割和视觉定位数据仅包含 基础的 模式，用于回答简单的定位提示。其次，在微调阶段，LMM 主要针对有效建模关键短语或单词与特殊分割符元之间的关系进行了优化，即，过度拟合分割和定位数据。因此，构建通用人工智能助手必不可少的对话能力被牺牲了。例如，最先进的定位模型 GLaMM [57] 无法回答一个简单的“是”或“否”问题（图 1 ）。此外，表 1 显示了现有定位 LMM 在对话能力方面的定量评估结果，在需要指令遵循能力的通用多模态问答基准测试中得分均为零或接近零。

为了解决这个难题，一个可能的方案是收集高质量的训练数据，其中包含有意义的对话和掩码标注。例如，LLaVA-G [77] 使用分割掩码对 150k LLaVA-Instruct 数据样本 [39] 进行标注，使 LMMs 同时学习聊天和分割。然而，标注高质量的接地对话数据成本高昂，而且难以扩展。尽管 LLaVA-G 接受了昂贵的标注数据的训练，但在多模态理解任务中，它仍然落后于通用 LMMs。此外，在大规模标注数据上进行训练通常会消耗大量的计算资源，这显然不是一个资源高效的解决方案。

在本文中，我们提出了一种简单而有效的方案，即，在人机对话中接地冻结的 LMMs (称为 F-LMM)。从第一性原理出发，我们认为冻结训练良好的 LMMs 的参数是 最可行的 设计选择，可以在构建通用接地 LMMs 时完全保留原始的优秀对话能力。特别地，我们从 Transformer [65, 6] 中注意力机制的内置可解释性中获得灵感，该机制在设计中表示文本和图像内容之间的相互关系。我们观察到，现成的 LMMs 已经产生了视觉接地所需的单词-像素对应关系，尽管它们没有直接使用区域或像素标注进行预训练。如图 2 (a) 所示，我们通过 K-Means 聚类可视化了来自冻结 LMMs 的单词-图像注意力图，展示了物体的显着几何和空间线索。 ¹ 例如，语言句子中关键短语 ( 例如， “两个女孩”、“两只大象”和“盘子”) 的粗略视觉接地掩码可以从 LMMs 中的注意力图中出现。因此，我们的 F-LMM 将这些视觉-语言对应关系作为解码接地掩码的有用分割先验，既不进一步调整 LMMs 的权重，也不学习特殊的分割符元来模拟物体位置，如图 2 (c) 所示。

值得注意的是，我们 F-LMM 中唯一可训练的部分是掩码头。它包含一个基于 CNN 的掩码解码器 (一个小型 U-Net [59] )，它将叠加的注意力图转换为掩码 logits，以及一个轻量级的掩码细化器 (从 SAM [26] 的掩码头改编而来)，它使用额外的图像和语言线索来细化来自掩码解码器的语义不可知的掩码。此外，我们只使用 RefCOCO(+/g) [23, 44] 和 PNG [17] 数据集作为我们的训练数据，使 LMMs 能够分割用户描述的物体并接地文本序列中的关键短语或单词。与之前的工作 [77, 57, 58] 不同，我们的 F-LMM 消除了在学习接地时使用带有掩码标注的高质量对话数据以保留对话能力的必要性。

在实验中，我们的F-LMM在通用问答基准测试上保持了现成LMM的原始优势，同时在参照分割和短语定位方面取得了具有竞争力的结果。与现有的定位LMM相比，F-LMM在定位和聊天能力之间提供了最佳平衡。此外，在保留指令遵循能力并获得定位能力的情况下，F-LMM通过在VisCoT基准测试 [60] 上表现出改进以及更好地抵抗POPE基准测试 [34] 上的物体幻觉，以零样本的方式释放了视觉链式思维推理。

2 相关工作

大型多模态模型。 LMM的最新进展 [2, 31, 14, 39, 37, 38, 72, 3, 30, 35, 45, 42, 32, 62, 29] 得益于自GPT系列 [54, 55, 4, 1] 首次亮相以来，LLM [4, 1, 78, 63, 64, 22, 12, 49, 46] 的成功，其特点是基于Transformer解码器 [65] 的自回归框架。这些LLM拥有通用的世界知识和优秀的对话能力，可以遵循人类指令，这要归功于大规模生成式预训练 [4] 和在指令调优数据 [68] 或人类反馈 [48] 上的监督微调。通过将来自视觉编码器 [53, 76] 的图像表示集成到LLM中，LMM能够作为AI助手实现视觉理解和推理。这种集成通常是通过一个多层感知器（MLP）建立的，该感知器直接将图像特征映射到LLM的输入嵌入空间 [39, 37, 38, 42, 32, 62, 75] ，或者是一个交叉注意力模块，该模块使用一组查询嵌入 [2, 31, 3, 72] 来抽象图像内容。在我们的研究中，我们在前一种类型的LMM（基于MLP）上构建F-LMM，这在跨模态集成中保留了图像的二维拓扑结构。

视觉分割。预测视觉对象的二维掩码的任务被称为图像分割，它可以分为语义分割 [8, 5, 81, 11] 、实例分割 [20, 10, 79] 和全景分割 [25, 9, 70, 33] ，这取决于目标是区分像素语义还是对象实例。这些标准分割方法依赖于一组预定义的对象类别进行识别。相反，参照表达式分割 (RES) [23, 44, 47, 82, 43, 71, 36] 涉及基于自由形式的人类语言描述分割对象，从而允许增强人机交互。此外，全景叙事定位 (PNG) [17, 15, 66, 18] 需要为句子中的关键词或短语分割掩码。在这项研究中，我们利用RES和PNG任务来评估LMM的定位能力。此外，在数十亿规模高质量掩码数据上预训练的基于提示的 SAM [26] 已成为许多接地 LMM 中的组成部分，以提高分割性能。我们还采用 SAM 的掩码头来初始化我们的掩码细化器。

接地大型多模态模型。接地大型多模态模型 [50, 7, 3, 73, 77, 80, 58, 57, 67, 28, 69, 51, 75] 可以在用户与模型的对话过程中定位语言内容。一些方法 [50, 7, 73, 3] 将边界框的坐标表示为文本，并训练 LMM 以生成方式预测坐标。最近的一些工作 [28, 77, 58, 67, 57, 51] 训练 LMM 以预测一个特殊的分割符元来编码接地对象，并利用一个分割头 ( e 。 g 。，SAM [26] ) 来解码对象掩码。本研究主要关注使用分割能力来进行视觉感知的接地 LLM。为了获得有竞争力的视觉接地性能，现有工作广泛地对 LMM 的参数进行了微调，这些参数是在大量的分割 [81, 5, 25, 56, 19] 和接地 [23, 44, 24, 27, 52, 17] 数据集上进行的。为了平衡 LMM 的接地能力和对话能力，人们付出了努力 [77, 58, 80] 收集用分割掩码标注的高质量指令调优数据。相比之下，我们首次尝试在现成的 LLM 之上构建接地 LLM，而无需对其参数进行微调。此外，我们绕过了对接地指令调优数据的需求，以保留良好的聊天能力。

3 方法

图 3 : F-LMM 的总体流程。来自冻结 LLM 的词-图像注意力图作为掩码头的分割先验。掩码头包含一个掩码解码器，它将注意力权重转换为掩码 logits，以及一个掩码细化器，它优化掩码解码器的预测。 M 和 N 分别代表 Transformer 层数和注意力头数。

在本节中，我们首先通过在第 3.1 节中可视化词-图像注意力图，来探究 LMM 中的因果注意力机制，从而介绍我们的 F-LMM。然后，我们在第 3.2 节中详细说明了 F-LMM 如何利用来自冻结 LMM 的分割先验信息，使用掩码头进行视觉定位。最后，我们在第 3.3 节中展示了如何使用我们的 F-LMM 在人机对话中执行指示性表达分割和短语定位。整个流程如图 3 所示。

3.1 来自冻结 LMM 的分割先验

视觉-语言序列。大型多模态模型 (LMM) 的典型构建 ² 包括一个图像编码器 f v ( e . g ., CLIP [53] ³ )、一个视觉-语言投影器 f p 和一个大型语言模型 (LLM) f llm 。 LMM 的输入通常是一张图像 𝐗 v ∈ ℝ 3 × H × W 和相应的文本 𝐗 t 。输入图像首先由视觉编码器 f v 编码，然后由投影器 f p 映射到 LLM f llm 的输入空间：

其中 h 和 w 分别是通过 f v 投影的特征图的高度和宽度。 Flatten 操作将 2-D 图像特征图展开成一个 1-D 序列。常数 d 是 LLM f llm 的隐藏状态维度。同样，文本输入首先被编码为离散符元，然后映射到文本嵌入：

其中 L 表示文本嵌入的长度。输入到 LLM f llm 的视觉-语言序列是图像和文本嵌入的串联： 𝐙 = { 𝐙 v , 𝐙 t } ∈ ℝ ( h ⁢ w + L ) × d 。

自注意力中的分割先验。视觉-语言序列主要由 LLM f llm 中的因果自注意力 [65, 54] 处理，包括内积和加权和操作。具体来说，对于视觉-语言序列 𝐙 中位置索引为 i 的单词符元，其嵌入 𝒛 i 通过前 i 个嵌入的加权和更新： 𝒛 ^ i = SoftMax ( 𝒛 i ⋅ 𝐙 [ : i ] d ) ⋅ 𝐙 [ : i ] ，其中 SoftMax ⁢ ( 𝒛 i ⋅ 𝐙 [ : i ] d ) 是注意力权重。这里，为了简洁起见，我们省略了残差层和前馈层。

图 4 ：单词-图像注意力图的可视化。字母 m 和 n 表示注意力图是从第 m 个 Transformer 层的第 n 个注意力头推导出来的。虽然有噪声，但物体在注意力图中是可观察的。当我们将所有注意力图叠加起来并执行 KMeans 聚类时，可见性会进一步增强。

考虑到多模态场景中的单词-图像交互，我们可以从整体视觉-语言注意力权重中选择单词符元与图像嵌入的注意力权重：

其中 Unflatten 从 1-D 序列中恢复 2-D 空间结构以形成注意力图。在图 4 中，我们从 LMM ( i . e ., DeepseekVL-1.3B [42] ) 中的各种 Transformer 层和注意力头的单词图像注意力映射中可视化了这种单词图像注意力映射。对象的形状和位置可以在某些层或头的单词图像注意力映射中观察到。当我们堆叠来自所有层和头的注意力映射并执行 K-Means 聚类时，可见性得到进一步增强。可以观察到，注意力映射提供了具有空间和几何线索的视觉接地对象的分割先验。

语言线索。除了来自单词图像注意力映射的空间和几何线索之外，F-LMM 还可以利用来自 LLM f llm 的对象对应文本嵌入，这些嵌入为视觉对象的接地提供了额外的语言线索。

3.2 具有掩码头的视觉接地

我们使用来自冻结 LMM 的分割先验进行像素级接地，借助于一个掩码头，该掩码头由掩码解码器和掩码细化器组成。

掩码解码器。掩码解码器 f d 是一个 2-D CNN 模型，它将接地对象的单词图像注意力映射转换为掩码 logits，该模型由一个 3 阶段 U-Net [59] 实例化。请参考附录的 Sec A.2 ，了解掩码解码器的详细信息。提取具有位置索引 i 的单词符元的单词图像注意力映射 𝒂 i 如式 3 和图 3 所示。对于由多个词描述的对象，我们将它们对应的单词图像注意力映射通过逐元素平均或最大操作合并到一个单一的注意力映射 𝒂 中。注意力映射 𝒂 进一步归一化为 𝒂 / sum ⁢ ( 𝒂 ) ，以便所有元素的总和为 1。考虑到 M 层和 N 个注意力头，我们将 M ⁢ N 个注意力映射堆叠为 𝑨 ∈ ℝ M ⁢ N × h × w ，它形成掩码解码器的输入。鉴于高输入分辨率对于分割模型的重要性，我们在将其馈送到掩码解码器之前，通过双线性插值将堆叠的注意力映射 𝑨 上采样到 h ′ × w ′ ，其中 h ′ > h 和 w ′ > w 。在实践中，我们设置 h ′ = w ′ = 64 。然后，掩码解码器将 𝑨 映射到掩码 logits： 𝐌 logits = f d ⁢ ( 𝑨 ) 。我们通过 𝐌 pred = 𝐌 logits > 0 得出相应的二进制掩码。在训练期间，掩码解码器使用BCE和DICE损失进行优化 [61] 。

掩码细化器。掩码细化器 f r 是从SAM的掩码头改造而来的 [26] ，它基于提示以及来自SAM基于ViT的图像编码器的图像嵌入来预测掩码。为了细化掩码解码器 f d 的输出，我们重新使用SAM的提示编码器将 𝐌 logits 转换为密集提示嵌入（ i . e ., 一个二维特征图）以及 𝐌 pred 的边界框到框嵌入。除了来自掩码和框的位置线索外，语言线索， i . e ., 对象对应的文本嵌入，也被 f r 利用。考虑来自 M Transformer层的文本嵌入，我们训练 M 可学习的标量来计算这些文本嵌入的加权和。加权求和的文本嵌入通过线性层处理，然后与框嵌入连接以形成稀疏提示嵌入。密集和稀疏提示嵌入，以及SAM的图像嵌入，被送入掩码细化器 f r 以进行更细粒度的掩码预测 𝐌 pred ′ 。在训练期间，我们保持SAM的基于ViT的图像编码器不变，并使用BCE损失和DICE损失优化掩码细化器 f r [61] 。有关SAM基于提示的掩码头的更多详细信息，请参阅原始SAM论文 [26] 。

3.3 用户-AI与 grounding 的交互

我们详细阐述了F-LMM如何在两种典型场景中用于用户-AI对话， i . e ., 指称表达式分割和短语 grounding。

指称表达式分割。在这种情况下，模型应该分割用户描述的对象。现有工作 [28, 57] 要求大语言模型 (LLM) 在答案中生成一个特殊的分割符元，然后将其解码为所描述对象的掩码。在我们的 F-LMM 中，我们可以使用词-图像注意力图和文本嵌入直接对用户描述进行 grounding。

短语 Grounding。在用户-模型对话中，grounding LLM 可以在与用户聊天时定位关键短语或单词。与现有工作 [58, 57] 使用特殊符元来指示 grounded 对象不同，我们使用 spaCy 工具包 [21] 来获取文本中的目标词和短语，并从冻结的 LLM 解码 grounding 掩码。在我们的设计中，文本生成和短语选择的这种解耦也允许用户决定要 grounding 哪些单词或短语。

4 实验

表 1 ：主要评估结果，包括问答基准、指称表达式分割 (RES) 基准和全景叙事 grounding (PNG) 基准。 MMB：MMBench；LLaVA ^W ：LLaVA-In-the-Wild；RefC(+/g)：RefCOCO(+/g)。 LLaVA-1.6 和 MGM-HD 使用高分辨率图像输入。 LLaVA-1.6-M-7B 表示该模型基于 Mistral-7B [22] 。 GLaMM-FS-7B 表示我们使用了 GLaMM 的“FullScope”版本。

4.1 实现细节

模型架构。我们在几个开源 LLM 上构建了 F-LMM，包括 LLaVA-1.5 [37] 、LLaVA-Next [38] 、MiniGemini [32] 、DeepseekVL [42] 和 HPT-Air [62] 。主要实验涵盖了 10 个 LMM，其模型大小范围从 1.3B 到 8B。我们采用了一个轻量级的 3 级 U-Net [59] 作为基于 CNN 的掩码解码器，将来自冻结的 LLM 的分割先验信息转换为掩码。 U-Net 架构具有编码器-解码器结构，并带有跳跃连接，其中特征图在编码器中被降采样，在解码器中被上采样。请查看附录的第 A.2 节，了解有关掩码解码器的更多详细信息。关于基于 SAM 的掩码优化器，我们选择了 SAM ViT-L [26] ，它在成本和性能之间取得了良好的平衡。

模型训练。 F-LMM 在 XTuner [13] 上实现。我们在 RefCOCO(+/g) [23, 44] 和 PNG [17] 数据集上训练 F-LMM，这些数据集包含大约 190k 个数据样本，在具有 8 个 NVIDIA A800-40G GPU 的单台机器上进行训练，每轮模型训练大约需要 20 个小时。我们将批处理大小设置为 8，并将模型训练 8 个 epoch，梯度裁剪的最大范数为 1.0。使用 AdamW [41] 优化器，学习率为 1e-4，权重衰减为 0.01，beta 为 (0.9, 0.999)。我们在训练开始时选择了 0.03 的预热比例，以稳定模型优化。

4.2 主要评估

我们的主要评估涵盖了 LMM 的对话和定位能力。我们在表 1 中总结了定位 LMM 的评估结果。请参阅附录中的第 A.1 节，了解更详细的结果。

基准。为了全面评估 对话能力 ，我们选择了四个广泛使用的通用问答基准，包括 MME [16] 、MMBench [40] 、LLaVA-In-the-Wild [39] 和 MMVet [74] 。 MME 和 MMBench 要求 LLM 严格遵循指令，以单个单词（是或否）进行回复，或用字母（ i . e 。，回答 A、B、C 或 D）回答选择题。 LLaVA-In-the-Wild 和 MMVet 基准要求模型以开放式文本进行响应，同时要求对一般世界知识进行理解。在 基础能力 评估方面，我们评估了 LLM 在参照表达式分割 (RES) [23, 44] 基准（包括 RefCOCO、RefCOCO+ 和 RefCOCOg）上分割用户描述的对象的能力，使用 cIoU 指标。由于篇幅有限，我们只报告了表格 1 中 RefCOCO(+/g) 的 Val 分割结果。我们还测试了 LLM 在全景叙述基础 (PNG) [17] 基准上将关键短语或词语与用户-模型对话中的内容相对应的能力，衡量了物体/材料对象的单个掩码召回率和总体召回率得分。

与现有方法的比较。我们将 F-LLM 与现有的基础 LLM 进行比较。如表格 1 所示，我们的 F-LLM 在比较方法中提供了对话和基础能力之间的最佳平衡。在问答基准中，现有的基础 LLM 在 MMBench 和 MME 上获得了零分或接近零分，而在 MMVet 和 LLaVA-In-the-Wild 基准上明显落后于通用 LLM，这表明指令遵循能力受到损害，通用知识理解能力减弱。在 RES 和 PNG 基准上，我们的 F-LLM 取得了可比的结果，尽管其参数没有针对基础目的进行微调。与标准分割模型相比，F-LLM 在 RES 和 PNG 基准上都优于所有这些专门设计的模型。