摘要
多模态大型语言模型 (MLLMs) 在视觉语言任务中展现出非凡的能力;然而,有效地将图像分割整合到这些模型中仍然是一个重大挑战。
在本文中,我们介绍了 Text4Seg,这是一种新颖的
文本作为掩码
范式,它将图像分割视为文本生成问题,从而消除了对额外解码器的需求,并显着简化了分割过程。
我们的关键创新是
语义描述符
,这是一种新的分割掩码的文本表示形式,其中每个图像块都映射到其相应的文本标签。
这种统一的表示允许无缝集成到 MLLMs 的自回归训练管道中,以简化优化。
我们证明,用
16
×
16
语义描述符表示图像可以产生具有竞争力的分割性能。
为了提高效率,我们引入了行级游程编码 (R-RLE),它压缩了冗余的文本序列,将语义描述符的长度减少了 74%,并将推理速度提高了
3
×
,而不会影响性能。
在各种视觉任务(例如,参照表达式分割和理解)中进行的广泛实验表明,Text4Seg 通过微调不同的 MLLM 主干,在多个数据集上实现了最先进的性能。
我们的方法为 MLLM 框架内的视觉中心任务提供了一种高效、可扩展的解决方案。
代码可在 https://github.com/mc-lan/Text4Seg 获取
1
引言
多模态大型语言模型 (MLLMs)
Yin 等人 (2023)
已成功地将强大的大型语言模型 (LLMs) 的能力扩展到视觉领域。
最近的进展表明,这些模型在自然语言驱动的 人机交互 和基于文本的视觉输入推理方面具有非凡的能力
Liu 等人 (2024c);Lu 等人 (2024);Liu 等人 (2024a);Bai 等人 (2023);Chen 等人 (2024)
。
MLLMs 已成为视觉中心任务的强大工具,包括图像生成
Song 等人 (2024);Wang 等人 (2024b)
、目标检测
Wang 等人 (2024a);Ma 等人 (2024);Zhang 等人 (2023)
和语义分割
Lai 等人 (2024);Zhang 等人 (2024b)
。
然而,将 MLLMs 无缝集成到这些任务中,尤其是在语义分割等密集预测任务中,仍然具有挑战性,因为语言和视觉模态之间存在内在差异。
大多数现有工作
Lai 等人 (2024);Xia 等人 (2024);Zhang 等人 (2024b);He 等人 (2024);Ren 等人 (2024);Rasheed 等人 (2024);Zhang 等人 (2023);Wu 等人 (2024)
采用了一种直接的方法,即向 MLLM 添加额外的视觉解码器 (
例如
,SAM
Kirillov 等人 (2023)
),如
图
1
(a) 所示。
尽管有效,但这种组合存在一些局限性:1) 它通过额外的损失函数使端到端训练流水线变得复杂;2) 它需要对 MLLM 架构进行仔细修改,导致在扩大训练规模时出现意想不到的挑战。
VisionLLM
Wang 等人 (2024a)
尝试将分割掩码转换为多边形坐标序列,如
图
1
(b) 所示。
但是,性能通常不令人满意,因为 LLM 可能难以将多边形坐标与形状关联起来,导致在 VisionLLMv2
Jiannan 等人 (2024)
中重新引入特定于分割的解码器。
找到一种更有效的方法来释放 MLLM 的分割能力至关重要。
这种方法应该遵循 MLLM 的下一个词元预测范式以简化优化,需要更少的架构更改以提高可扩展性,并充分利用 LLM 的文本生成能力。
图 1:
基于 MLLM 的图像分割的不同范式:(a)
嵌入作为掩码
范式,它依赖于额外的分割解码器和损失 (
例如
,LISA
Lai 等人 (2024)
);(b) 用于实例分割的
多边形坐标
(
例如
,VisionLLM
Wang 等人 (2024a)
);(c) 我们提出的
文本作为掩码
范式,它依赖于语义一致的文本序列。
在本文中,我们介绍了一种新颖的
文本作为掩码
范式,它将图像分割视为一个文本生成问题,这大大简化了分割过程。
我们提出了
Text4Seg
,一个用于基于 MLLM 的图像分割的无解码器框架,如
图
1
(c) 所示。
我们方法的核心是分割掩码的一种新颖的序列表示。
与使用索引掩码或数字坐标不同,我们将输入图像的每个扁平化的补丁映射到其对应的文本描述 (
例如
,语义标签、短语或长句),形成图像的纯文本表示,称为
语义描述符
。
这种表示具有以下几个优点:1) 统一的序列表示无缝集成到自回归训练流水线中,使文本任务的联合优化更容易;2) 不需要架构更改,允许充分利用现有的 MLLM 训练基础设施,使其非常适合扩展;3) 支持大型标签词汇表,相当于语义词;以及 4) 在指示表达式分割、开放词汇分割和其他视觉接地任务之间灵活切换。
受 ViT
Dosovitskiy 等人 (2021)
的启发,我们证明了
用 16
×
16 个语义词来表示图像,即
256
语义描述符的长度,足以获得令人满意的结果
。
为了提高效率,我们引入了行级游程编码 (R-RLE),它压缩了每行图像中重复的描述符,同时保留了空间结构。
在不影响性能的情况下
,R-RLE 将语义描述符长度减少了 74%,并将推理速度平均提高了
3
×
。
为了进一步提高性能,我们应用了一个现成的掩码细化器,
即
,SAM,作为一种后处理方法来获得像素级分割掩码。
借助提出的语义描述符,训练用于分割的 MLLM 需要最少的额外工作。
我们首先从现有的分割数据集构建指令遵循数据,将原始语义掩码转换为语义描述符格式,然后使用查询-响应对话微调模型。
这种方法适用于各种以视觉为中心的任务,例如指代表达式分割、开放词汇分割和视觉接地任务。
我们的实验表明,Text4Seg 可以将分割能力无缝集成到现有的 MLLM 架构中,例如 LLaVA-1.5
Li 等人 (2024a)
、Qwen-VL
Bai 等人 (2023)
、DeepseekVL
Lu 等人 (2024)
和 InternVL2
Chen 等人 (2023b)
,
无需任何架构修改
。
毫不夸张地说,Text4Seg 始终比之前的模型表现更好或相当,突出了它的效率、灵活性以及鲁棒性。
总之,我们的主要贡献如下:
-
•
我们提出了 Text4Seg,一种新颖的
文本作为掩码
范式,它将图像分割重新定义为文本生成问题,充分利用了 MLLM 的文本生成能力。
-
•
我们引入了语义描述符,这是一种分割掩码的文本序列表示,可以无缝地与现有的 MLLM 集成,以实现更轻松的优化。
我们证明
16
×
16
语义描述符足以实现强大的性能。
-
•
我们开发了行级游程编码 (R-RLE) 来压缩语义描述符,显着缩短其长度并降低推理成本,而不会影响性能。
-
•
我们通过在各种以视觉为中心的任务中取得最先进的性能,验证了 Text4Seg 基于各种 MLLM 主干的有效性和鲁棒性。
2
相关工作
多模态大型语言模型。
MLLM 通常是通过用视觉感知模块增强大型语言模型 (LLM) 来开发的,这些模块可以生成基于多模态输入的连贯文本对话。
例如,Flamingo
Alayrac 等人 (2022)
引入了 Perceiver Resampler,它将预训练的视觉编码器与 LLM 相连,以实现有效的少样本学习。
OpenFlamingo
Awadalla 等人 (2023)
和 Otter
Li 等人 (2023a)
在此架构的基础上进行构建,重点关注多模态的上下文指令调优。
BLIP-2
Li 等人 (2023b)
和 InstructBLIP
Dai 等人 (2023)
使用轻量级查询 Transformer (Q-Former) 来弥合模态差距,展示了在零样本视觉到语言任务中的增强性能。
LLaVA 系列
Liu 等人 (2024c; a)
使用线性层或 MLP 作为模态连接器,在使用 GPT-4 生成的多模态语言图像指令遵循数据上进行训练,展示了在多模态聊天交互中的显著能力。
它们在多模态聊天交互中展示了令人印象深刻的能力。
相反,Qwen-VL
Bai 等人 (2023)
和 mPLUG-Owl2
Ye 等人 (2024)
探索通过具有可学习查询的交叉注意机制将特征压缩到固定长度,优化了计算效率。
最近的进展
Liu 等人 (2024b); Xu 等人 (2024); Li 等人 (2024a; b; c); Lin 等人 (2023)
专注于通过高分辨率输入来增强视觉编码。
例如,LLaVA-UHD
Xu 等人 (2024)
实施了一种图像模块化策略,将原生分辨率图像分割成更小的、可变大小的切片,以提高可扩展性和编码效率。
同样,LLaVA-NEXT
Liu 等人 (2024b)
和 LLaVA-OneVision
Li 等人 (2024a)
利用 AnyRes 方案来容纳高分辨率图像输入。
在这项工作中,我们提出了 Text4Seg,它赋予现有的 MLLM 以图像分割能力,基于指令调优,
无需对其架构进行任何更改
。
语言引导的语义分割和定位。
最近的进展使 MLLM 能够为以视觉为中心的任务整合特定于任务的模块。
LISA
Lai 等人 (2024)
引入了嵌入作为掩码范式,利用一个特殊的
<
seg
>
符元来提示分割掩码解码器,例如 SAM
Kirillov 等人 (2023)
,从而增强了推理和参照表达式分割中的性能。
在此基础上,GSVA
Xia 等人 (2024)
使用多个
<
seg
>
符元和一个
<
REJ
>
符元来解决用户引用多个主体或提供与图像目标不匹配的描述的情况。
同样,GLaMM
Rasheed 等人 (2024)
通过将自然语言响应与相应的对象分割掩码相结合,扩展了 LISA 的单对象关注点。
他们引入了一个大规模、密集标注的 Grounding-anything 数据集来训练 GLaMM,这在各种视觉任务中显着提高了性能。
OMG-LLaVA
Zhang et al. (2024a)
和 PixelLM
Ren et al. (2024)
也能够进行基于场景的对话生成。
PixelLM
Ren et al. (2024)
通过用轻量级像素解码器替换 SAM 并引入全面的分割码本,进一步改进了 LISA,从而实现高效的多目标推理和分割。
相反,GROUNDHOG
Zhang et al. (2024b)
提出使用其掩码特征提取器输入视觉实体符元,而不是视觉符元,这使得能够实现细粒度的视觉理解。
GROUNDHOG 还策划了一个基于场景的视觉指令调优数据集,Multi-Modal Multi-Grained Grounding(M3G2),用于对模型进行全面训练。
最近的研究
Zhang et al. (2023); Jiannan et al. (2024); Wu et al. (2024); Fei et al. (2024)
将多模态大型语言模型扩展到以视觉为中心的任务,如视觉定位 (
e.g.
,边界框、掩码),方法是集成特定于任务的头部用于不同的应用程序。
虽然有效,但这些方法由于存在多个解码器和损失函数,增加了训练复杂度并限制了模型可扩展性。
其他努力
Chen et al. (2021); Peng et al. (2023); Wang et al. (2024a)
试图通过学习坐标序列或位置符元来简化这一过程。
但是,它们往往只在具有简单位置坐标的目标检测任务中表现良好,并且在分割等更复杂的任务上难以取得有竞争力的结果。
相反,我们为视觉任务引入了通用的序列表示,无需特定于任务的头部,能够与多模态大型语言模型无缝集成,并利用其文本生成能力,在应用程序中实现有效的、通用的性能。
3
方法
在本节中,我们首先概述多模态大型语言模型,详见
Sec.
3.1
。
接下来,我们将详细阐述语义描述符和行式行程编码的设计,详见
Sec.
3.2
。
最后,我们将展示如何构建视觉指令数据来训练我们提出的 Text4Seg,详见
Sec.
3.3
。
图 2:
多模态大型语言模型架构。
3.1
预备知识
多模态大型语言模型 (MLLMs)
Yin 等人 (2023)
指的是能够从多模态信息中处理、推理并生成响应的基于 LLM 的模型。
通常,如图
2
所示, 一个 MLLM 可以抽象成三个主要部分:1) 一个预训练的视觉编码器,负责从输入图像中提取视觉符号,2) 一个预训练的大型语言模型 (LLM),用于处理推理和生成输出,以及 3) 一个模态连接器,作为视觉编码器和 LLM 之间的桥梁。
3.2
语义描述符
语义描述符的定义。
我们的语义描述符受到 ViT
Dosovitskiy 等人 (2021)
的启发,它将图像表示为
16
×
16
视觉符号。
如
图
3
所示, 该过程首先将图像分割成固定大小的补丁,并将它们扁平化。
然后,每个补丁由其相应的语义描述符表示。
描述符可以像语义标签一样简单 (
例如
,“天空”,“沙子”),短语 (
例如
,“棕色狗”,“黑色狗”),甚至更复杂的文字描述 (
例如
,“左边的一条狗”) 用于错综复杂的场景。
这种方法将图像编码成一个长度为
256
的语义描述符序列,它满足将图像分割集成到 MLLM 中的要求,方法是:
图 3:
图像语义描述符和两种符号压缩技术的说明。
行级 RLE。
全长语义描述符的主要限制之一是由于图像中固有的空间冗余导致的符号长度过长。
例如,在 refCOCO
Kazemzadeh et al. (2014)
数据集中,
256
语义描述符的平均词元长度为
583
,在 V100 GPU 上进行一次引用表达式分割大约需要 19 秒。
为了解决这个问题,我们引入了简单的游程编码 (RLE)
Golomb (1966)
来压缩语义描述符中相邻的重复文本。
一种直接的方法是将 RLE 直接应用于整个语义描述符,称为图像级 RLE (I-RLE)。
但是,我们凭经验发现,这会导致性能显着下降,表明压缩后的描述符可能会丢失关键的空间信息。
为了缓解这个问题,我们提出了一种新颖的行级游程编码 (R-RLE) 技术。
如
图
3
所示,R-RLE 在行级别进行操作,每行由“
∖
n
”分隔。
这种方法将词元长度平均从 583 减少到 154,同时保留了更多的空间信息。
重要的是,与全长语义描述符相比,R-RLE 没有表现出性能下降,并且显着提高了推理速度。
3.3
Text4Seg 的视觉指令调优
基于提出的语义描述符,我们利用现有的分割数据集构建了视觉指令数据。
图
5
展示了引用表达式分割和语义分割的示例。
给定一对
<
图像,掩码
>
,我们将掩码调整为
16
×
16
分辨率并将其展平。
然后用相应的文本标签替换序列中的索引,以创建全长语义描述符。
我们进一步应用 R-RLE 来压缩序列,其中描述符由“
|
”分隔,行由“
∖
n
”分隔。
最后,将图像、文本标签和语义描述符嵌入到类似于
查询
:
<
IMAGE
>
你能分割图像中的
<
文本标签
>
吗?
响应
: 结果是:
∖
n
<
seg
>
语义描述符
<
/
seg
>
.
请注意,
<
seg
>
和
<
/
seg
>
是语义描述符的开始和结束。
凭借这种纯粹的文本响应,Text4Seg 可以无缝地集成到现有的 MLLM 中,而无需任何架构修改,如图
5
所示。
我们使用低秩自适应 (LoRA)
Hu 等人 (2021)
,在我们的可视化指令数据上微调 MLLM,使用其原始的自回归训练目标
ℒ
t
x
t
。
与现有的模型
Lai 等人 (2024); Zhang 等人 (2024b); Rasheed 等人 (2024)
形成对比,这些模型通常依赖于使用大型混合数据集的持续预训练 (CPT) 来融合架构,然后在特定的下游任务上进行微调,我们直接在下游任务上应用监督微调 (SFT)。
在推理过程中,为了获得更好的像素级语义掩码,我们可以选择使用 SAM 作为掩码优化器,将粗略掩码作为其提示。
4
实验
4.1
实施细节
模型架构。
我们的方法基于几个开源 MLLM,包括 LLaVA-1.5
Liu 等人 (2024a)
,DeepseekVL
Lu 等人 (2024)
,InternVL2
Chen 等人 (2024)
和 Qwen-VL
Bai 等人 (2023)
。
主要实验涵盖了 6 个 MLMM,其模型大小范围从 13 亿到 130 亿个参数,以及 3 个连接器,包括 MLP (LLaVA-1.5, DeepseekVL)、Pixel Shuffle + MLP (InternVL2) 和交叉注意力 (Qwen-VL)。
在实验过程中,所有架构均保持不变。
此外,我们使用配备 ViT-H 的现成 SAM 作为我们的掩码优化器。
模型训练。
我们的方法使用 SWIFT
Zhao et al. (2024)
实现。
所有模型都在 8 个 Tesla A800 GPU(40GB)上训练,全局批次大小为 128。
我们使用 AdamW 优化器
Loshchilov (2017)
,初始学习率为 2e-4,在预热阶段之后遵循线性衰减计划,比率为 0.03。
权重衰减设置为 0,梯度范数在 1.0 处被裁剪。
为了最大程度地减少 GPU 内存使用量,我们使用 LoRA(秩为 64)以及 ZeRO-2 阶段内存优化来微调所有模型。
表 1:
指称表达式分割
结果(cIoU)在 RefCOCO(+/-g)数据集上。
GLaMM 以浅色表示,因为它使用的数据集大小是我们数据集的 100 倍。
表 2:
广义指称表达式分割
结果在 gRefCOCO 数据集上。
4.2
指称表达式分割
设置。
对于指称表达式分割 (RES),我们遵循标准评估协议
Lai et al. (2024); Xia et al. (2024)
,并使用 refCOCO 系列评估我们的方法。
我们通过组合
训练
集 refCLEF、refCOCO、refCOCO+
Kazemzadeh 等人 (2014)
和 refCOCOg
Mao 等人 (2016)
,构建了指代分割数据集,数据集包含 80 万个样本。
我们的模型在这个数据集上训练了 5 个 epoch。
此外,为了评估在多目标/非目标分割任务上的性能,我们使用
训练
集 grefCOCO
Liu 等人 (2023a)
,构建了一个包含 41.9 万个样本的泛化指代表达式分割数据集。
我们继续对模型进行微调,共 2 个 epoch。
单个目标的结果。
如
表
1
所示,我们的 Text4Seg 在 refCOCO (+/g) 数据集的所有分割中都取得了最高的性能。
对于 70 亿规模的 MLLM,Text4Seg
DeepseekVL-7B
提供了令人印象深刻的平均 cIoU 值为 75.0,超过了最接近的竞争对手 Groundhog,其 cIoU 得分为 74.2。
值得注意的是,Text4Seg
InternVL2-8B
的平均 cIoU 值为 75.4。
在 130 亿参数规模下,Text4Seg
LLaVA-1.5-13B
取得了显著的改进,平均 cIoU 值为 76.2,明显优于 GSVA 的 72.8 cIoU。
这些结果表明 Text4Seg 在单目标指代表达式分割方面具有明显的优势。
多目标/无目标的结果。
如
表
2
所示,Text4Seg 在多目标和无目标指代表达式分割任务中保持着竞争优势。
例如,在 70 亿规模下,Text4Seg 在 gRefCOCO 数据集上的平均得分在 69.9 到 71.1 之间,明显高于 GSVA 的 65.6。
在 130 亿规模下,Text4Seg
LLaVA-1.5-13B
进一步扩大领先优势,平均得分达到 71.5,比 GSVA 高出 4.9 个百分点。
这些结果突出了 Text4Seg 在处理更复杂分割挑战时的鲁棒性和多功能性。
表 3:
指示词理解
结果([email protected])在 RefCOCO (+/g) 数据集上。
4.3
指示词理解
设置。
我们的 Text4Seg 也可以直接应用于目标检测,使用简单的
mask2box
范式,该范式首先根据输入生成分割掩码,然后从掩码中推导出边界框。
我们采用这种方法来评估我们模型的指示词理解,使用与 RES 中相同的数据集。
具体来说,如果预测的边界框与真实边界框之间的 IoU 超过 0.5,则预测被认为是正确的。
结果。
如
表
3
所示,我们的 Text4Seg 在 refCOCO 和 refCOCO+ 数据集上取得了最佳结果,而 Groma 在 refCOCOg 上表现良好。
然而,Text4Seg
InternVL2-8B
提供了最高的整体准确率,达到 87.1%。
值得注意的是,Text4Seg
InternVL2-8B
和 Text4Seg
Qwen-VL-7B
都超过了各自的 MLLM 基线。
特别是,Text4Seg
InternVL2-8B
表明比 InternVL2-8B 有了显著改进,其平均准确率从 82.9% 提高到 87.1%。
此外,我们的 Text4Seg
LLaVA-1.5-13B
在平均水平上比之前的 SOTA,Shikra,高出 3.7%。
这些结果突出了我们 Text4Seg 的优越性,它提供了一个更精细的像素级表示,从而提高了边界框预测的精度。
4.4
视觉理解
设置。
我们的文本作为掩码范式允许将下游分割任务无缝集成到 MLLM 的预训练中。
为了评估其有效性,我们使用 LLaVA-1.5-7B 模型作为基线,评估了该模型在各种视觉理解基准上的性能。
我们的方法 Text4Seg 基于 LLaVA-1.5-7B 的第二阶段,在 LLaVA-v1.5-mix665k 数据集和我们的参考分割数据集上进行训练。
为了进行全面的比较,我们还报告了基于我们实现的 LLaVA-1.5-7B 模型的性能。
结果。
表
4
展示了 LLaVA-1.5 和 Text4Seg 在各种 VQA 和 RES 基准上的比较。
Text4Seg 在混合数据集上训练,不仅在视觉问答任务中取得了与 LLaVA-1.5 相当的性能,而且在 RES 基准上也展示了强大的结果。
这些结果验证了我们基于文本生成的分割方法是一种无缝的增强,为预训练 MLLM 提供了一种简化的途径。
它成功地集成了强大的分割功能,而不会影响模型的对话能力。
表 4:
视觉问答
和
RES
基准上的结果。
refC 代表 refCOCO。
表 5:
开放词汇分割
结果(mIoU)在各种分割数据集上。