专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

大型多模态模型中新出现的像素级语义理解，没有语义理解监督

FightingCV · 公众号 · · 2024-11-19 09:00

正文

摘要

当前大型多模态模型 (LMM) 在语义理解方面面临挑战，这要求模型将语言成分与视觉实体相关联。与使用额外语义理解监督微调 LMM 的常见做法相反，我们发现语义理解能力实际上可以在没有明确语义理解监督的情况下，在训练的 LMM 中出现。为了揭示这种新出现的语义理解，我们引入了一种“ 注意和分割 ”方法，该方法利用来自标准 LMM 的注意力图来执行像素级分割。此外，为了增强语义理解能力，我们提出了 DiffLMM ，这是一种利用基于扩散的视觉编码器 (而不是标准 CLIP 视觉编码器) 的 LMM，并使用相同的弱监督进行训练。我们的方法不受语义理解特定监督数据的偏差和有限规模的约束，因此具有更好的泛化性和可扩展性。与分别使用语义理解 LMM 和通用 LMM 相比，我们在语义理解特定和通用视觉问答基准测试中都取得了有竞争力的性能。值得注意的是，我们在没有任何语义理解监督的情况下，在基于语义理解的对话生成方面实现了 44.2 的语义理解掩码召回率，优于经过广泛监督的模型 GLaMM。项目页面：https://groundLMM.github.io。

图 1：使用 GLaMM (Rasheed 等人，2024) 与 . 我们的方法， DiffLMM + 注意和分割的基于语义理解的对话。左侧：作为最先进的语义理解 LMM，GLaMM 在生成响应时被训练将文本短语与分割掩码相关联。然而，由于接地监督引起的限制，它通常无法精确遵循人类用户的指令( 例如。 , 详细描述图像 ，回答正确的颜色 )。右侧：我们的方法揭示并增强了 LMM 在没有显式语义理解监督的情况下隐式学习的语义理解能力 ，这在保持 LMM 的通用视觉语言对话能力的同时，导致了视觉上基于语义理解的响应。图 4 中显示了更多示例。

1 引言

大型多模态模型 (LMMs) (Liu等人，2023; Zhu等人，2024; Dai等人，2023) 为以通用方式解决视觉语言任务带来了新的机遇，这些模型通常通过连接视觉编码器和大型语言模型 (LLM) 并通过视觉指令进行微调来构建。目前，LMMs 面临的一个主要挑战是 语义关联 ——将语言成分（例如，名词短语）与给定图像中的视觉实体（例如，物体）关联起来的关键能力 (Yu等人，2016; Krishna等人，2017) 。凭借语义关联能力，LMMs 可以解除仅限文本响应的约束，并解决现实世界中更多视觉语言任务。

为了使 LMMs 具备语义关联能力，普遍认为需要 针对语义关联的额外监督 ，并且需要引入相应的架构修改。例如，最近的工作将输出模式从纯文本扩展到边界框 (Chen等人，2023b; Peng等人，2024) 、轨迹点 (Xu等人，2024) 或分割掩码 (Lai等人，2024; Rasheed等人，2024) ，方法是：1) 向普通 LMM 架构附加额外的模块，以及 2) 使用语义关联监督对 LMM 进行微调。语义关联监督源于重新利用包含人工标记的对象级标注的现有数据集，或使用其他模型自动标注图像。

然而，这种 对强监督的依赖 带来了更多不希望有的约束：1) 可扩展性 ：具有高质量对象级标注的当前图像数据集规模（最多数百万张图像 (Shao等人，2019; Kuznetsova等人，2020) ）远小于只有粗略图像文本对的数据集（最多数十亿张图像 (Schuhmann等人，2022) ），因此重新利用此类对象级标注只能导致有限规模的视觉指令数据。同时，如果对象级标注是由自动化模型生成的，则此类标注比人工标注的标注更嘈杂且可靠性更低 (Rasheed等人，2024) 。 2) 监督偏差 ：将数据重点转向语义关联任务会导致灾难性遗忘 (French, 1999) 并损害 LMM 的通用对话能力。此外，无论语义关联数据是手动标注的 (Lin等人，2014) 还是由其他模型伪标注的 (Rasheed等人，2024) ，它们都会受到标注者或模型知识的偏差，并且可能无法与普遍的人类偏好相符，因为这些细粒度的标注在不同的标注者或模型之间可能差异很大。 3) 泛化能力 ：语义关联监督受限于现有数据集或其他模型中的视觉概念，这与开发用于解决开放世界问题的通用助手这一最终目标相矛盾 (Bendale & Boult, 2015) 。因此，生成的 LMMs 可能 难以扩展，受语义关联监督数据的影响，并且在新的视觉概念和领域中泛化能力差。 图 1 和 4 显示了这些限制的示例。

为避免此类限制，一个值得重新思考的问题出现了： 是否有除了强监督之外的其他方法来进行 LMM 的语义关联？ 事实上，在这项工作中，我们揭示了一个关键但以前被忽视的事实：LLM 通过弱监督的视觉指令调优 (Instruction Tuning) 本身就获得了语义理解能力。换句话说， 大语言模型 (LLM) 的语义理解能力可以在没有语义理解监督的情况下涌现出来。 与先前对传统卷积神经网络的观察结果 (Zhou et al., 2015; 2016) 相呼应，我们发现，在图像级别的视觉语言学习过程中，LLM 隐式地 implicitly 学习检测视觉实体并将它们与语言关联起来。

因此，我们提出了一种简单有效的“ attend-and-segment ”策略，以 将这种涌现的语义理解能力转化为像素级的分割掩码 。直观地说，LLM 中的注意力机制 (Vaswani et al., 2017) 揭示了 LLM 在关注什么 ，从而为视觉语义理解提供了线索。我们从使用标准视觉指令调整（Liu等人，2023）训练的基础LMM开始，但没有基础监督，并获取与视觉输入相对应的 注意力图 生成输出 Token 。然后，注意力图进一步细化为像素级的分割掩码。使用这种 attend-and-segment 方法，我们能够实现直接依赖于语义理解能力的视觉语言任务（ e.g . ，基于语义理解的对话生成 (Rasheed et al., 2024) ）。值得注意的是， attend-and-segment 不需要像先前工作那样进行明确的语义理解监督；相反，来自标准视觉指令调优数据的 弱监督 就足以实现与之前的语义理解监督模型相当甚至更高的性能。此外，作为一种通用的方法， attend-and-segment 可以很容易地与最近的通用LLM (Li et al., 2024a; Tong et al., 2024a) 集成，并受益于其更强大的视觉语言能力。

此外，我们提出了一种简单的解决方案来 增强LLM 涌现的语义理解能力 。以前，CLIP (Radford et al., 2021) 由于其视觉语言特征对齐，在LLM的视觉编码器中扮演着主导作用。然而，众所周知，CLIP在提供局部视觉特征方面较弱 (Zhou et al., 2022; Ghiasi et al., 2022; Li et al., 2022) ，因为它的预训练只是对图像-文本对的全局表示进行对齐。通过对特定语义理解和一般任务的系统评估，我们发现扩散模型 (Ho et al., 2020; Rombach et al., 2022) 是CLIP更好的替代方案，因为它们文本到图像的生成能力能够 实现视觉语言对齐和局部特征 。因此，我们提出了基于扩散的 LMM ( DiffLMM )，它使用基于扩散的视觉编码器增强了 LMM 的 CLIP 视觉编码器，同时使用与原始 LMM 相同的数据进行微调。据我们所知， DiffLMM 是 第一个 成功将基于扩散的视觉编码与 LMM 相结合，用于视觉接地和一般视觉语言任务的模型。与原始 LMM 相比， DiffLMM 增强了接地能力，而没有牺牲通用视觉语言任务的性能。

我们广泛的实验表明，LMM 的接地能力可以 从弱监督中涌现 。我们的方法不需要额外的接地监督，因此 更具可扩展性和通用性 ，并且 受接地监督数据中偏差的影响更小 。尽管 (Lai 等人，2024；Rasheed 等人，2024) 比之前接地 LMM 的训练数据少，但 DiffLMM 在接地特定基准测试中取得了更好或相当的性能，同时保持了视觉语言任务的强大泛化能力。总结一下，我们的贡献有三点：

•

与依赖接地特定强监督的先前方法不同，我们展示了在没有接地监督的情况下接地 LMM 的可能性。我们的方法不需要来自人类或外部模型的细粒度标注，因此更具可扩展性和通用性。
•

我们发现了一种简单有效的方法 attend-and-segment ，通过检查模型生成过程中的注意力图并将这些图转换为分割掩码，为 LMM 实现像素级接地，这不需要接地监督或架构更改。
•

我们提出了 DiffLMM ，它采用基于扩散模型的视觉编码器。 DiffLMM 提供比原始 LMM 更强的接地能力，同时保持一般的视觉语言任务性能。

2 相关工作

大型多模态模型 (LMM)。 LMM 的先驱工作，如 LLaVA (Liu 等人，2023；Sun 等人，2024；Liu 等人，2024a；b) 、MiniGPT-4 (Zhu 等人，2024；Chen 等人，2023a) 和 InstructBLIP (Dai 等人，2023；Li 等人，2023a) ，通过视觉语言特征对齐 (Radford 等人，2021) 和指令调优 (Wei 等人，2022) 为大型语言模型 (LLM) 启用视觉输入。为了使 LMM 具备接地能力，人们提出了一系列方法来生成模型输出，包括边界框 (Peng 等人，2024；Chen 等人，2023b；Wang 等人，2023；Pi 等人，2023；You 等人，2024；Li 等人，2024b) 、点迹 (Xu 等人，2024) 或分割掩码 (Lai 等人，2024；Rasheed 等人，2024；Zhang 等人，2024；Ren 等人，2024) ，方法是添加区域特定符元或解码器。这些方法需要进一步的接地监督，因此具有细粒度标注的图像数据集 (Lin et al., 2014; Yu et al., 2016; Zhou et al., 2017) 通常被重新用于视觉指令调优。与这些监督方法不同，我们的方法， attend-and-segment ，不改变 LMM 架构，也不需要任何接地监督数据。

一项同时进行的工作 F-LMM (Wu et al., 2024a) 展示了一种类似的方法，用于在冻结的 LMM 中利用注意力图进行视觉接地，但我们与它的主要区别在于两个方面：1) F-LMM 仍然遵循监督学习范式，并使用接地数据来学习额外的模块，而我们的 attend-and-segment 需要 零监督 。我们首次揭示了 LMM 在没有显式监督的情况下出现的接地能力。 2) F-LMM 检查现有的 LMM，而不改变它们的视觉编码。相反，基于我们对视觉表示及其接地能力的系统分析，我们提出了 DiffLMM 进一步增强隐式接地。

扩散模型 (DM) 作为视觉特征提取器。 DM (Song & Ermon, 2019; Ho et al., 2020; Song et al., 2021; Karras et al., 2022; Nichol & Dhariwal, 2021; Rombach et al., 2022) 已成为视觉生成中的普遍范式，并且来自 DM 的中间特征被探索用于超越生成任务的应用。例如，DDPM-Seg (Baranchuk et al., 2022) 、ODISE (Xu et al., 2023) 和 EmerDiff (Namekata et al., 2024) 利用 DM 特征用于各种分割任务。来自 DM 的特征还可以建立图像之间点或像素级别的对应关系 (Tang et al., 2023; Luo et al., 2023; Zhang et al., 2023; Hedlin et al., 2023) 。我们首次展示了 DM 可用于学习具有强大接地能力的通用 LMM。

3 方法

在本节中，我们首先介绍 LMM 的通用架构设计（第 3.1 节）。然后，我们讨论 attend-and-segment ，它将隐式学习的接地能力转换为分割掩码（第 3.2 节）。基于标准 LMM 和 attend-and-segment ，我们提出 DiffLMM ，以进一步增强接地能力，而无需额外的监督（第 3.3 节）。

3.1 预备知识：大型多模态模型 (LMM) 的元架构

大多数大语言模型（LLM） (Liu et al., 2023; Zhu et al., 2024; Dai et al., 2023) 共享一个通用的元架构，该架构由一个视觉编码器 M V 、一个视觉到语言特征投影器 M V ↦ L 和一个大型语言模型 (LLM) M L 组成，如图 2 所示。给定分辨率为 H × W 的图像 I ，采用视觉编码器 M V （例如，CLIP (Radford et al., 2021) ）来提取视觉特征 V = M V ⁢ ( I ) ∈ ℝ h × w × c V ，其中 h × w 表示特征图大小， c V 是视觉特征维度。然后，将视觉特征图视为 h ⁢ w 个元素的序列，并由投影器 M V ↦ L 将其逐元素投影到语言特征空间。投影器可以实现为一个可学习的轻量级多层感知器 (MLP)。第 k 个投影的视觉符元计算为 v k = M V ↦ L ⁢ ( V k ) ∈ ℝ c L ，其中 c L 是LLM中的特征维度。将视觉符元与其他语言符元连接起来，形成输入序列 S input ：

其中 { v 1 , … , v h ⁢ w } 是从视觉特征图投影的 h ⁢ w 个视觉符元， t 1 , … , t p 是视觉符元之前的 p 个语言符元， { t p + 1 , … , t p + q } 是视觉符元之后的 q 个语言符元。

LLM通常是一个仅解码器的Transformer模型，能够进行下一个符元的预测。给定输入序列 S input ，输出序列 S output = { o 1 , … , o r } 以自回归的方式生成，其中第 i 个符元预测为：

当最后一个预测的符元 o r 是特殊的“序列结束”符元时，生成终止。

3.2 Attend-and-Segment ：无需地面真值监督的LLM接地方法

以前将LLM接地的方法是将检测或分割模块附加到LLM架构，并使用接地监督专门训练LLM，即，通过对象级标注扩充的视觉指令数据，以便LLM学习预测文本响应和图像内容之间以局部边界框或分割掩码形式的连接。与这些强监督方法相反，我们提出了 attend-and-segment ，这是一种简单有效的方法，用于在 不改变其架构或提供额外接地监督 的情况下对LLM进行接地。我们在生成符元时研究了基于Transformer的语言模型内部的注意力图，并观察到与注意力图相关的强大可解释性。直观地说，注意力图可以提供关于 模型在生成输出时关注的位置 的信息。

正式地，我们考虑第 3.1 节中详述的输入符元序列 S input 。在预测输出符元 o i 时，我们捕获了基于 Transformer 的 LLM M L 内部原始注意力图 A i raw ∈ [ 0 , 1 ] n layer × n head × ( p + h ⁢ w + q + i − 1 ) ，其中 n layer 是 LLM 中的层数， n head 是每层的头数， p + h ⁢ w + q + i − 1 是在第 i 个输出符元 o i 之前的符元数。我们只使用与 h ⁢ w 视觉符元相关的注意力图，并通过在 n layer 层和每层 n head 个头上的平均来减少维度。此操作返回一个注意力矩阵 A i reduced ∈ [ 0 , 1 ] h × w ，其空间维度与视觉特征图相同。

输出符元和视觉符元之间的注意力已经可以提供可解释的接地信号。为了进一步放大接地信号并减少噪声，我们在整个输出序列上应用归一化：

其中 r 是输出序列长度。

为了提供像素级接地，我们通过对注意力图进行上采样并使用预训练的 Segment Anything Model (SAM) (Kirillov et al., 2023) 来推导出一个分割掩码。对于每个需要接地的符元，我们通过用具有最高归一化注意力的坐标提示 SAM 来生成其对应的二元掩码。因此，对于输出序列的元素，我们的 attend-and-segment 方法提供了像素级接地结果。值得注意的是，我们使用现成的 SAM，没有任何修改，而以前的像素级接地 LMM (Lai et al., 2024; Rasheed et al., 2024) 需要用其他模块微调 SAM。

图 2： LMM 的元架构和 attend-and-segment 策略。在标准 LMM 中，图像编码器 M V 从输入图像中提取视觉特征，这些特征通过投影器 M V ↦ L 转化为视觉符元。大语言模型 M L 以自回归的方式生成输出。在生成一个需要接地的新符元 ( e.g . ，"猫") 时，我们捕获了新符元和输入视觉符元之间的 注意力 。然后使用 SAM (Kirillov et al., 2023) 将处理后的注意力图细化为 分割掩码 ( e.g . ，图像中的猫)。

在诸如基于语境的对话生成之类的下游任务中，最好将名词短语而不是符元与图像内容关联起来。为此，我们利用现有的自然语言处理工具（例如， spaCy (Honnibal et al., 2020) ）将输出序列解析为名词短语，并将名词短语与输出符元关联起来。对于每个名词短语，我们使用来自对应符元的归一化注意力图的平均值来生成分割掩码。更多细节包含在附录 A 中。

3.3 DiffLMM ：基于扩散的LMM增强型定位

大多数LMM使用CLIP (Radford et al., 2021) 作为视觉编码器，因为它已经被预训练以对齐视觉和语言表示，但是CLIP在需要精确定位的任务（例如，目标检测，图像分割）中被认为是次优的 (Zhou et al., 2022; Ghiasi et al., 2022; Li et al., 2022) 。为了增强LMM的定位能力，一个直接的选择可能是用更好的局部纯视觉主干网络（例如DINO (Caron et al., 2021; Oquab et al., 2024) ）替换CLIP。然而，缺乏与语言表示的对齐可能会损害视觉-语言任务的性能 (Jiang et al., 2023; Tong et al., 2024b) 。

与具有图像级对齐的视觉-语言模型（例如，CLIP）和纯视觉模型（例如，DINO）相比，来自扩散模型（DM）的视觉表示取得了更好的平衡：1）DM学习生成高保真图像，这需要良好定位的视觉特征。因此，它们在定位方面优于CLIP。 2）DM被训练执行文本到图像的生成，在这个过程中，它们获得了与语言指令的对齐，而这在像DINO这样的纯视觉模型中是缺乏的。因此，我们提出了基于扩散的LMM（ DiffLMM ，如图 3 所示），它使用预训练的DM增强了视觉编码器。

图3： DiffLMM 中的视觉编码。我们使用扩散模型(DM) (Ho et al., 2020; Rombach et al., 2022) 执行一步去噪，并从U-Net的中间块提取视觉特征。隐式字幕器 (Xu et al., 2023) 生成类似文本的条件，并改进U-Net中的视觉特征。我们将 DM 特征和 CLIP 特征结合起来，并在其中添加可学习的位置编码。最终的视觉特征被投影到语言特征空间，并与其他文本符元一起被输入到 LLM 中。 DM 和 CLIP 视觉编码器被冻结。

为了提取给定输入图像 I 的视觉特征，我们在扩散过程中模拟一个去噪步骤。该图像通过向量量化 (VQ) 编码器进行标记化，添加随机噪声，并输入到 DM 的 U-Net 模型中 (Ho 等人，2020; Rombach 等人，2022) 。我们从 U-Net 中的第二个上采样块中提取视觉特征图，它最好地保留了视觉语义 (Tang 等人，2023) 。文本条件可以增强 DM 中的视觉特征提取，但图像标题通常不可用。我们采用隐式字幕机制 (Xu 等人，2023) ，它通过 CLIP 视觉编码器模拟文本条件。具体来说，CLIP 视觉特征被提取为 V CLIP = M CLIP ⁢ ( I ) ，通过多层感知器 (MLP) M CLIP ↦ SD 进行投影，并通过交叉注意力模块注入 U-Net。我们将 DM 视觉特征表示为 V SD = M SD ⁢ ( I , M CLIP ↦ SD ⁢ ( V CLIP ) ) 。最后，视觉特征图 V 通过连接 DM 特征和 CLIP 特征（注意，我们可以重复使用 CLIP 特征而无需额外开销）并添加一组可学习的位置编码 P ⁢ E (Vaswani 等人，2017) 来进一步增强定位意识而构成：

为了高效训练并防止过拟合，我们在 CLIP 视觉编码器和 DM 中冻结了预训练参数。只有隐式字幕器中的 MLP、位置编码和视觉语言特征投影器在 DiffLMM 的视觉编码器中是可学习的。由于计算量主要由 DiffLMM 中的大型语言模型组件决定，因此在 DiffLMM 中集成扩散模型不会显着影响效率。我们只观察到训练和推理时间略有增加 ( < 5 % )。

4 实验

本节首先呈现全面的实证结果，以评估我们提出的 attend-and-segment 和 DiffLMM 在特定基础任务（第 4.1 节和 4.2 节）和一般的视觉问答任务（第 4.3 节）上的表现。然后，我们将考察我们的模块设计（第 4.4 节）并展示定性结果（第 4.5 节）。由于篇幅有限，我们将实现细节和进一步的结果放在附录中。值得注意的是， attend-and-segment 和 DiffLMM 是适用于大型语言模型 (LMM) 的通用方法，但考虑到计算限制，我们将重点放在使用7B或8B规模语言模型 (Chiang et al., 2023; Meta, 2024) 的基础性增强上。

4.1 预备研究：实例分割

我们首先通过对MS-COCO (Lin et al., 2014) 数据集进行 实例分割 (He et al., 2017) 分析研究，以证明大型语言模型中基础能力的涌现，以及不同的视觉编码器如何影响这种能力。与视觉语言纠缠基准（将在后面的章节中测试）不同， 以视觉为中心 的实例分割任务1）直接关注将图像区域（表示为分割掩码）与视觉概念（物体类别）相关联，这正是基础目标；2）不基于语言生成进行评估，这使得更方便直接比较不同模型的基础能力。

大型语言模型 (LMM) 原本并非为实例分割而设计。因此，为了进行评估，我们要求大型语言模型生成给定图像的详细描述，并利用 attend-and-segment 从大型语言模型的响应中生成名词短语和分割掩码对。然后，我们使用 spaCy (Honnibal et al., 2020) 计算它们的嵌入相似度，从而找到每个名词短语最匹配的类别标签。由于大型语言模型不受限于仅描述数据集标注的对象（并且不应因检测到域外对象而获得奖励或惩罚），我们排除了无法与给定图像中出现的任何类别标签匹配的预测。我们比较了实例分割中的标准指标：掩码平均精度 (AP) 和掩码平均召回率 (AR)。在这种情况下，AP 低于 AR，因为模型未针对该任务进行监督，并且我们没有明确删除重复的预测。为了进一步解耦注意力图 vs . SAM细化的质量，我们计算了一个新的指标，点精度 (PAcc)，它是正确落入对应类别掩码中的提示点的比率。为了进行比较，我们考虑了一个模拟“盲”大型语言模型的基线，它使用随机点提示SAM来分割每个真实类别的目标。

表1：基于实例分割的定位能力分析。我们研究了大型语言模型 (LLM) 注意力图中嵌入的定位能力，并基于LLaVA-1.5 (Liu et al., 2024a) ，比较了使用不同视觉主干网络（包括CLIP (Radford et al., 2021; Cherti et al., 2023) 、DINOv2 (Oquab et al., 2024) 和Stable Diffusion (Rombach et al., 2022) ）以及相同数据但没有定位监督的LLM。与随机采样点和提示SAM的基线相比，原始LLaVA-1.5取得了非凡的性能。 DiffLMM 利用基于扩散的视觉特征增强了这种定位能力，甚至在掩码AR上超过了依赖于四个视觉编码器集合的Cambrian-1 (Tong et al., 2024a) 。

Model	Visual Backbone	PAcc	AP _S	AP _M	AP _L	AP	AR _S	AR _M	AR _L	AR
Random Point		10.53	0.0	0.2	0.8	0.3	0.1	1.2	10.1	3.8
LLaVA-1.5	CLIP (original)	34.01	1.8	6.6	6.3	3.9	5.8	21.7	43.2	22.8
	ConvNeXt CLIP	37.16	3.1	7.0	8.4	4.9	8.4	22.1	44.0	23.9
	DINOv2	34.55	1.9	6.7	7.2	4.2	6.4	22.0	41.7	23.0
DiffLMM	SD-1.5	38.92	2.1	7.6	9.9	5.7	6.4	25.3	48.8	25.9
(Ours)	SD-1.5 + CLIP	40.22	1.6	7.9	9.6	5.6	6.3	25.5	47.3	26.0
Cambrian-1	Ensemble	44.49	2.0	6.9	10.6	6.0	6.3	20.7	39.1	21.4

如表 1 所示，原始LLaVA-1.5中的注意力图达到了34.01的非凡准确率，表明注意力图可用于细粒度定位。将注意力图进一步细化为分割掩码，得到22.8 AR。比较配备不同视觉编码器但使用相同数据训练的模型，我们的 DiffLMM 无论是否将扩散特征与CLIP特征连接，都实现了最佳的整体点精度和掩码AP/AR。最近一种以视觉为中心的LLM，Cambrian-1 (Tong et al., 2024a) ，利用包括CLIP变体和DINOv2在内的四个视觉主干网络的集合，具有更高的点精度和掩码AP。然而，由于训练数据不同，它生成的描述往往比LLaVA-1.5短，导致更多目标遗漏和更低的掩码AR。

4.2 基于定位的对话生成

实例分割的初步研究表明，在没有显式定位监督的情况下训练的LLM已经隐式地获得了定位能力，这可以用来生成像素级别的分割掩码。根据以上讨论，我们在一个更全面的基准测试——基于定位的对话生成 (GCG) (Rasheed et al., 2024) 上检查了LLM的定位能力。 GCG的目标是理解图像中的视觉实体，并将它们组织成局部描述。具体来说，GCG任务要求LLM为给定图像生成详细的标题，其中短语与其在图像中对应的分割掩码相关联。

由于GCG任务需要模型在标题生成和分割方面的能力，因此考虑了三种类型的指标：1）为了衡量标题质量， 仅文本指标 ，METEOR (Banerjee & Lavie, 2005) ，将生成的标题与人工标注的参考标题进行比较。 2）为了评估分割掩码质量， 仅掩码指标 ，平均交并比 (mIoU) 量化了真值掩码与其匹配的预测掩码之间的相似性。 3) 地面掩码召回率 (Rasheed 等人，2024) 是一个用于区域特定接地的 综合指标 ，它同时考虑了掩码 IoU 以及预测与真实情况之间的文本相似性。因此，在地面掩码召回率主要用于比较不同的模型。

在表 2 中，我们将我们学习 LMM 的方法（无需任何地面监督）与用于接地 LMM 的先前方法进行了比较 (赵等人，2023 年；彭等人，2024 年；赖等人，2024 年；Rasheed 等人，2024 年) 。 即使没有地面监督 ，我们的 attend-and-segment 对于原始 LLaVA-1.5 (Liu 等人，2024a) 也获得了 42.7 的掩码召回率，这已经 高于所有之前的接地 LMM 。作为一种通用方法， attend-and-segment 可以与最近的 LMM（如 LLaVA-NeXT (Li 等人，2024a) 和 Cambrian-1 (Tong 等人，2024a) ）结合使用，并受益于它们改进的视觉编码和视觉语言功能。与基于 CLIP 的 LMM 相比， DiffLMM 提供了更好的局部视觉特征，并提高了接地能力。当使用我们的 DiffLMM 作为 LMM 时，我们获得了最高的 44.2 测试召回率。我们的方法实现了像素接地，但不会受到地面注释带来的监督偏差的影响，因此更好地保留了纯文本对话能力，如更高的 METEOR 分数所示。附录 C 展示了 GCG 上更多的定性结果。

表 2: 基于接地的对话生成 (GCG) 结果。即使没有地面监督， attend-and-segment ( a&s 在表中) 也释放了 LLaVA-1.5 (Liu 等人，2024a) 中隐式学习的接地能力， 在该任务上优于所有特定于接地的模型 。 DiffLMM 进一步增强了接地能力，并带来了更强的接地性能。更高的 METEOR 分数证明了我们更好地保留了对话能力。作为一种通用方法， attend-and-segment 可以应用于不同的 LMM (Li 等人，2024a; Tong 等人，2024a) 。所有方法都通过纯文本指标 METEOR (M) (Banerjee & Lavie, 2005) 、纯掩码指标 mIoU 和组合指标地面掩码召回率 (Rec) (Rasheed 等人，2024) 在 Grand _f 数据集 (Rasheed 等人，2024) 上进行了评估。基线结果来自 GLaMM (Rasheed 等人，2024) 。

Model	Grounding	Validation Set			Test Set
Model	Supervision	M ↑	mIoU ↑	Rec ↑	M ↑	mIoU ↑	Rec ↑
BuboGPT (Zhao et al., 2023)	✓	17.2	54.0	29.4	17.1	54.1	27.0
Kosmos-2 (Peng et al., 2024)		16.1	55.6	28.3	15.8	56.8	29.0
LISA (Lai et al., 2024)		13.0	62.0	36.3	12.9	61.7	35.5
GLaMM (Rasheed et al., 2024)		16.2	66.3	41.8	15.8	65.6	40.8
LLaVA-1.5 + a&s (Ours)	✗	18.6	58.0	44.2	18.3	59.3	42.7
LLaVA-NeXT + a&s (Ours)		15.6	64.5	45.6	15.6	65.6	44.2
Cambrian-1 + a&s (Ours)		14.6	59.8	42.0	14.5	60.7	40.4
DiffLMM + a&s (Ours)		18.4	61.2	46.6	18.2	62.1	44.2

4.3 视觉问答

在增强 LLM 的接地能力时，我们不希望 LLM 失去其一般的视觉语言能力。为了评估这种一般能力，我们在广泛的视觉问答 (VQA) 基准上评估了 DiffLMM ，包括 VQAv2 (Goyal 等人，2017) 、GQA (Hudson & Manning, 2019) 、Vizwiz (Gurari 等人，2018) 、ScienceQA-IMG (Lu 等人，2022) 和 TextVQA (Singh 等人，2019) 。我们还考虑了更全面的 LLM 基准，包括 POPE (Li 等人，2023b) 、MMBench (Liu 等人，2024c) 和 LLaVA-Bench (Liu 等人，2023) 。

值得注意的是，以前的接地 LLM（例如。，LISA (Lai 等人，2024) ，GLaMM (Rasheed 等人，2024) ）通常不会在这些通用 VQA 基准上进行评估。例如，POPE 用于量化 LLM 中的对象幻觉，方法是询问诸如“ 图像中是否有 [对象]？ ” 但查询的对象通常不存在。但是，我们发现 GLaMM 几乎总是回答“ 当然，它是 [seg]。 ” 并提供错误的分割掩码（参见图 4 中的示例）。这种回答一般问题的能力丧失是由于 监督偏差 ——这些 LLM 是针对接地任务进行微调的，它们忘记了如何在没有接地的前提下回答一般视觉问题。因此，像 GLaMM 这样的接地 LLM 在这些基准上的得分非常低，我们选择与更强大的通用 LLM 进行比较，这些 LLM 不是针对 VQA 基准上的接地任务而设计的。

与相同规模的最先进 LLM（从 7B LLM 微调而来）相比，包括 InstructBLIP (Dai 等人，2023) 、IDEFICS (HuggingFace, 2023) 、Qwen-VL-Chat (Bai 等人，2023) 和 LLaVA-1.5 (Liu 等人，2024a) ， DiffLMM 在 3 个基准上排名第一，在 4 个基准上排名第二。由于 DiffLMM