专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
北京厚朴中医  ·  筑基十一期招生开启——学习中医、厚朴筑基 ·  2 天前  
中国民兵  ·  新文职进入不了工作该如何办?来看 → ·  昨天  
中国民兵  ·  新文职进入不了工作该如何办?来看 → ·  昨天  
中国能源报  ·  关于举办绿电、绿证、CCER交易培训的通知 ·  昨天  
北京厚朴中医  ·  筑基十一期招生开启——学习中医、厚朴筑基 ·  3 天前  
51好读  ›  专栏  ›  FightingCV

MG-LMM | 指令引导的多粒度分割和字幕与大型多模态模型

FightingCV  · 公众号  ·  · 2024-09-29 09:00

主要观点总结

本文介绍了大型多模态模型(LMMs)在理解和生成图像中的像素级对齐文本方面的进展。为了克服现有工作的局限性,作者引入了多粒度大型多模态模型(MGLMM),该模型能够根据用户指令无缝调整分割和字幕的粒度。为了解决社区中缺乏用于训练和评估LMM以执行多粒度分割和字幕任务的基准的问题,作者建立了一个新的基准测试集MGSCData,并使用定制的自动标注管道进行标注。此外,作者提出了一种统一的数据格式USCDF,以在多任务训练中促进对象概念和视觉特征的对齐。实验结果表明,MGLMM在多个下游任务上表现优异,包括MGSC、GCG、图像字幕、引用分割等。代码和数据集将公开发布。

关键观点总结

关键观点1: 介绍大型多模态模型(LMMs)的进展和现有工作的局限性。

大型多模态模型在理解和生成图像中的像素级对齐文本方面取得了进展,但现有工作在执行多粒度分割和字幕任务方面存在局限性。

关键观点2: 引入多粒度大型多模态模型(MGLMM)。

为了克服现有工作的局限性,作者引入了MGLMM,该模型能够根据用户指令无缝调整分割和字幕的粒度。

关键观点3: 建立新的基准测试集MGSCData和定制自动标注管道。

为了解决社区中缺乏用于训练和评估LMM以执行多粒度分割和字幕任务的基准的问题,作者建立了新的基准测试集MGSCData,并使用定制的自动标注管道进行标注。

关键观点4: 提出统一的数据格式USCDF。

为了在多任务训练中促进对象概念和视觉特征的对齐,作者提出了一种统一的数据格式USCDF。

关键观点5: 实验结果表明MGLMM在多个下游任务上表现优异。

实验结果表明,MGLMM在多个下游任务上表现优异,包括MGSC、GCG、图像字幕、引用分割等。


正文

摘要

大型多模态模型 (LMMs) 通过扩展大型语言模型取得了重大进展。 在此进展的基础上,LMMs 的最新发展证明了通过集成分割模型生成密集像素级分割的能力。 尽管存在创新,但现有工作的文本响应和分割掩码仍然停留在实例级别,即使提供详细的文本提示,也显示出有限的执行细粒度理解和分割的能力。 为了克服这一局限性,我们引入了一种多粒度大型多模态模型 (MGLMM),该模型能够根据用户指令,从全景 SegCap 到细粒度 SegCap,无缝调整分割和字幕 (SegCap) 的粒度。 我们将这种新的任务命名为多粒度分割和字幕 (MGSC)。 观察到在 MGSC 任务上缺乏模型训练和评估的基准,我们使用我们定制的自动化标注管道,建立了一个在多粒度中具有对齐掩码和字幕的基准。 该基准包含 10K 张图像和超过 30K 张图像-问题对。 我们将发布我们的数据集以及我们的自动化数据集标注管道的实现,以供进一步研究。 此外,我们提出了一种新的统一 SegCap 数据格式来统一异构分割数据集;它有效地促进了在多任务训练期间将对象概念与视觉特征相关联的学习。 大量实验表明,我们的 MGLMM 擅长处理超过八个下游任务,并在 MGSC、GCG、图像字幕、参照分割、多个和空分割以及推理分割任务中取得了最先进的性能。 MGLMM 的出色性能和多功能性突出了其在推动多模态研究方面的潜在影响。 代码和数据集将发布在 https://github.com/lizhou-cs/mglmm。

图 1: MGLMM 是一种多功能且复杂的 LMM,可以处理涉及文本和像素级掩码响应的各种任务。 我们将在以下场景中展示其可视化结果:多粒度分割和字幕、参考分割、多个/空分割、全景分割、推理分割、图像级字幕和对话。


绪论

利用大型语言模型 (LLM) (Chiang 等人 2023;Touvron 等人 2023) 的常识推理和理解能力,大型多模态模型 (LMM) (Zhu 等人 2023;Alayrac 等人 2022;Bai 等人 2023;Liu 等人 2024a) 在跨模态理解和视觉语言对齐方面取得了显著进步。

最近,一些研究 (Lai 等人 2024;Xia 等人 2024) 探索了能够生成像素级分割掩码作为对用户查询的响应的基于指令的 LMM。 最近的研究 (Rasheed 等人 2024;Zhang 等人 2024a) 集中于基于语境对话生成 (GCG),该方法旨在将对话中出现的主要对象进行语境化。 尽管这些方法 (Zhang 等人 2024a;Lai 等人 2024;Xia 等人 2024;Ren 等人 2024) 集成了能够进行全景分割的强大分割模型,但它们在为图像中的所有实例生成掩码-文本对齐的响应方面仍然存在困难,导致全景分割性能有限。 图 2 (a) 显示了 GLaMM 在掩码和文本响应中都忽略了网球拍、网球和麦克风的情况。 此外,这些模型仅具备在实例级别描述图像并生成与输出文本对齐的相应实例掩码的能力。 因此,即使提供了详细的文本提示,这些模型也很难感知精细的对象,例如图 2 (b) 中球员的帽子、腕带和裙子。 以上能力的缺失将限制 LMM 的普遍性和理解能力。

为了克服这些限制,我们引入了多粒度 LMM (MGLMM),它能够根据用户指令无缝调整分割和字幕 (SegCap) 的粒度,从全景 SegCap 到精细 SegCap。 具体来说,对于需要描述图像整体内容的查询,MGLMM 输出带有字幕的精确全景分割掩码,提供对整个图像的粗粒度理解。 对于需要描述图像中某个特定对象的指令,MGLMM 可以生成详细的响应,包括对象子部分的分割掩码以及相应的描述,从而揭示目标对象的组成部分。 我们将这样的任务称为多粒度 SegCap (MGSC),它评估从粗粒度到精细粒度的渐进认知能力。 总体而言,MGLMM 在解决超过八个下游任务方面表现出色,例如全景 SegCap、精细 SegCap、GCG 以及多个和空分割,如 图 1 和 表 1 所示。

观察到社区中缺乏用于训练和评估 LMM 以执行 MGSC 任务的基准,我们建立了一个新的基准,名为 MGSCData,它使用定制的自动标注管道在多粒度中对齐了掩码和字幕。 它包含 10,000 张图像和超过 30,000 对图像-问题对,涵盖了全景和细粒度分割。 更具体地说,该数据集包含超过 300,000 个分割掩码,每个掩码都标注有语义标签和相应的详细描述。 MGSCData 有效地促进了在多粒度中关联物体概念和视觉特征的能力的训练和评估。 我们将发布 MGSCData,并期望它能造福学术界。

除了基准测试外,在跨粒度统一分割任务中的另一个关键挑战在于查询和输出的格式和语义级别存在显著差异。 通常,现有研究直接将不同任务的异构数据纳入模型训练,忽略了任务差异,并进一步复杂化了多模态对齐。 为了解决这个问题,我们提出了统一 SegCap 数据格式 (USCDF) ,以在训练期间明确指导模型学习不同粒度中物体概念和分割掩码之间的对齐关系。 具体而言,USCDF 统一了不同分割任务的输出格式,弥合了它们之间的差距,并降低了模型进行多任务学习的难度。 图 3 的右侧说明了统一数据格式在包括多引用推理、全景 SegCap 和细粒度 SegCap 在内的任务上的实例化。 实验结果表明 USCDF 有利于多任务学习和视觉-语言学习。 我们还在各种基准测试中评估了 MGLMM。 实验表明,它在六个基准测试中取得了最先进的结果。

图 2: GLaMM 和我们的 MGLMM 的定性比较。 请参考 附录 A 获取更多详细信息。

总之,我们的工作有四个主要贡献:

  • 我们提出了 MGLMM,这是第一个能够在多粒度分割和标题之间无缝切换的模型,特别是包括全景和细粒度分割和标题。

  • 我们介绍了一个新的基准 MGSCData 来训练和评估 LMMs 的多粒度分割和标题的能力,其中包含超过 30K 个高质量的图像-问题对。

  • 我们提出了一种统一的数据格式,它便于学习对象概念和多个粒度中的分割掩码之间的对齐关系。

  • 我们在各种任务中取得了最先进的性能,包括 MGSC、GCG、图像标题、各种分割任务等。


表 1: MGLMM 与多个代表性方法的能力比较。 这里,“通用分割” 包含语义分割、实例分割和全景分割;“推理分割” 需要模型根据涉及复杂推理的查询分割图像并提供相应的文本解释。

相关工作

最近,人们越来越关注微调预训练的 LLM 以用于视觉指令。 这些方法,包括 BLIP-2 (Li 等人 2023) 、InstructBLIP (Dai 等人 2023) 、LLaVA (Liu 等人 2024b) 、MiniGPT-4 (Zhu 等人 2023) 、Qwen-VL (Bai 等人 2023) ,通常使用预训练的视觉编码器嵌入视觉输入,利用 LLM 作为基本模型来理解用户指令并生成文本响应,并包含一个适配器将视觉编码器的特征与语言模型的特征连接起来。 在 LLM 中整合视觉和语言模态旨在增强它们理解和响应复杂视觉引导任务的能力。 尽管这些方法极大地促进了多模态语言模型的发展,但它们的机制无法实现像素级对齐,也无法全面理解图像和语言。

此外,一些工作,包括 (Lai 等人 2024;Ren 等人 2024;Rasheed 等人 2024;Zhang 等人 2024a) ,探索了由指令驱动的更复杂的任务,包括分割或标题作为响应以实现图像和文本的有效像素级对齐。 尽管这些方法在各种分割任务中表现良好,但它们仅限于学习实例级视觉-语言对齐,这使它们无法感知细粒度对象。 此外,所有这些方法都将能够进行全景分割的掩码解码器集成到其方法中,但无法生成连贯的掩码-文本-对齐响应,导致性能不佳。

由于上述原因,我们的目标是开发一个 LMM,它能够根据用户指令无缝地执行全景和细粒度分割和标题。 此外,我们建立了一个名为 MGSC 的高质量基准,填补了全景和细粒度分割和字幕的空白,并介绍了我们的自动标注流程。 最后,我们提出了一种统一的数据格式,方便显式地学习对象概念和分割掩码之间的对齐关系。 MGLMM 在六项以上任务中取得了最先进的性能,消融结果也证明了我们方法的有效性。

方法

图 3: :MGLMM 的模型架构。 :提出的用于多任务学习的统一数据格式。

在本节中,我们介绍了 MGLMM 的模型架构,如 图 3 所示。 然后我们介绍训练过程中使用的统一 SegCap 数据格式。

模型架构

为了实现多粒度分割和字幕,我们利用两个基础模型来构建我们的模型:(1)一个 LMM 用于理解输入图像和用户指令并生成自然语言响应,以及(2)一个基于编码器-解码器架构的分割模型用于像素级视觉理解。

大型多模态模型。 考虑到简单性和与先前工作 (Lai 等人,2024;Rasheed 等人,2024) 的一致性,LLaVA 成为我们的首选。 具体来说,我们使用 CLIP 模型作为视觉编码器,表示为 v ,并结合 Vicuna-7B 模型作为基于解码器的 LLM,表示为 l l m 。 如图所示。 3 ,视觉编码器负责从输入图像 x i m g 中提取视觉特征,之后应用一个投影器 ϕ 将提取的图像特征映射到 l l m 的词嵌入空间。 正式地说:

值得注意的是,投影器 ϕ 在将图像特征与语言模态对齐方面起着至关重要的作用。 具体来说,它由两个带 GELU 非线性的线性层组成,并随机初始化。 同时,文本输入由 l l m 的分词器 T 编码为文本符元。 随后,我们将图像符元 z i m g 和文本符元 z t x t 整合在一起,然后将其输入到 l l m 中以生成最终的文本输出 y t x t


遵循 LISA (Lai 等人,2024) ,我们采用嵌入作为掩码范式来桥接这两个模块。 在此范式中,模型的词汇表被扩展为一个专门的符元“'[SEG]'”,旨在显式地激活分割模型的分割行为。 当 LMM 想要根据用户指令生成分割掩码时,它将在输出序列 y t x t 中插入“'[SEG]'”符元,以指示存在要分割的目标。 例如:


分割模型。 本工作采用 SAM (Kirillov 等人,2023) 作为我们基础分割架构,因为它具有广阔的像素级建模能力。 如图所示。 3 ,像素编码器

p i x e l 使用冻结的 SAM 编码器实例化,而像素解码器 𝒟 p i x e l 则从预训练的 SAM 解码器初始化。 前者将高分辨率图像作为输入以提取细粒度的视觉信息,而后者则根据来自 LLM 的“'[SEG]'”符元的嵌入生成所需的分割掩码。 具体来说,我们选择与“'[SEG]'”符元 y ^ t x t ( [ S E G ] ) 相对应的输出嵌入 z ^ s e g ,并使用投影器 ψ 将其转换为解码器的特征空间。 值得注意的是,投影器 ψ 的结构和初始化与投影器 ϕ 的结构和初始化相同。 整个过程可以表述为:


图 4: 我们提出的数据自动标注管道的概述。 由于空间限制,图中没有显示详细的标题。 请参阅 附录。B 获取详细版本。 放大后效果最佳。

统一 SegCap 数据格式的设计

大多数现有研究主要通过直接扩展相应的任务数据集,将各种像素级分割能力集成到 LMM 中。 例如,在引用分割中,查询可能是一个需要返回分割掩码的短语。 相反,在推理分割中,查询可以是更长的句子或问题,其中目标可能不存在,需要答案以及分割掩码。 在不同的分割任务中,查询的形式和语义各不相同。 在这种情况下,模型必须在训练期间自适应地将潜在目标的语义概念与视觉特征对齐,这无疑会增加模型学习的负担。 因此,我们提出了一种统一的 SegCap 数据格式来利用这些数据,明确地指导模型朝着改进的视觉语言对齐方向发展。 通过这种方式,我们统一了不同分割任务的输出格式,弥合了它们之间的差距,降低了模型进行多任务学习的难度。 具体来说,除了 ‘[SEG]’ 符元之外,我们还在 LMM 的词汇表中引入了 大语言模型 (LLM) 需要使用 ‘[SEG]’ 激活分段行为,同时用 以下是多引用分段的数据格式示例:

这里, 表示图像符元的占位符。 {obj-n} 表示相应分段目标的语义描述。

与之前的工作相比,这种统一的数据模式使模型能够在训练期间明确地学习对象概念和分段掩码之间的对齐关系。 尽管 GLaMM (Rasheed 等人,2024) 采用了类似的格式,但它仅用于其提出的 GCG 任务。 相反,我们对所有任务都使用这种统一的模式,通过最小化任务之间输出格式的差异来减少建模负担。 在图中。 3 ,我们在推理和多粒度分段等任务上展示了我们统一的数据格式。 值得注意的是,在训练阶段,我们将一些现有的开源数据集的标注格式转换为我们提出的统一数据模式,因为它们不符合我们的要求。 有关此过程的更多详细信息,请参阅 附录。C

数据标注流程

现有的大多数分段数据集都专注于实例级对象,虽然 SAM 数据集提供了细粒度的分段掩码标注,但它缺乏相应的文本描述。 因此,为了解决评估多粒度分段和字幕模型的基准不足的问题,我们提出了一项名为 Multi-Granularity SegCap 的新任务。 为了建立这个基准,我们提出了一种自动标注流程,它使我们能够利用 LMM 的能力,特别是 GPT-4 和 Qwen-VL 系列,进行数据标注。 在下一节中,我们将介绍我们的自动标注流水线,该流水线旨在无缝地转换任何分割数据集。 此流水线包含三个主要步骤,如图 4 所示。 第一步侧重于为每个被遮蔽的目标生成简短标题和详细标题,被称为目标标注。 随后,第二步根据分割掩码构建树关系。 第三个步骤通过利用子树不同级别的原始数据来组织不同级别的粒度信息。 因此,我们实现了多粒度分割和标题标注,这些标注展示了视觉和文本概念之间的高度一致性。 由于 SAM (Kirillov 等人,2023) 数据集提供了数亿张高质量图像和细粒度分割,因此我们在 SAM 数据集上执行了我们的自动化流水线。

目标标注

在步骤 1 中,关键点是为图像中的每个目标生成简短标题和详细标题。 简短标题用作目标的语义表示。 详细标题是目标的全面且语义丰富的文本表示,主要用于提供参考表示,以限制 LMM 的发散和随机性。 在实践中,我们利用 GPT-4o 创建指令遵循数据来生成每个被遮蔽对象的语义标签。

掩码树构建

在获得每个目标的语义标签后,我们需要组织图像中每个目标之间的层次关系。 我们发现,目标之间的层次关系可以通过掩码之间的交并比 (IoU) 关系有效地反映出来。 因此,我们将整个图像表示为根节点,然后根据掩码之间的包含关系扩展树。 此外,在 SAM 数据集中,单个图像中存在大量掩码标注,其中许多标注共享相同的语义标签。 例如,在一栋有许多窗户的建筑物中,每个窗户都用一个带有相同简短标题的单独掩码表示。 对于共享相同父节点的这些节点,我们将这些节点及其掩码合并。 通过这种方式,我们获得了简单且分层的树,并显著缩短了结果文本标注的长度。


表 2: MGLMM 与其他 LMM 在文本描述和像素级理解能力方面的全面比较。 “-” 表示该方法不处理此任务。

稠密上下文组织

多粒度标题的生成基于掩码树,掩码树提供每个目标的语义标签及其之间的层次关系。 首先,我们利用根节点的子节点的语义标签来生成一个有序的文本输入,其中主要包含图像中的实例级对象,旨在为整幅图像创建粗粒度的标题。 随后,我们将精心设计的提示、有序文本输入和图像连接起来,以提示 GPT-4o 并获得一个组织良好的描述,其中每个目标都以自然且连贯的顺序嵌入。 我们对根节点下的每个子树应用相同的过程。 特别地,我们使用子树的所有后代节点来构建一个描述,旨在获得特定目标的细粒度描述。 通过这种构建过程,我们获得了与每个实例级目标对齐的描述的全景分割掩码,以及与每个图像中特定目标对齐的描述的细粒度分割掩码。

通过这种方式,我们标注了 10K 个 SAM 图像,这些图像本身就具有多样性,并表现出多粒度。 结果数据集包含 30K 个对话,包含超过 45M 个符元,总计超过 300K 个分割掩码,每个掩码都附带一个简短的语义标签和一个详细的标题。 有关管道和数据集的更多详细信息,请参阅 附录 B

实验

实验设置

数据集。 为了实现 MGLMM 的所有功能,我们的训练数据集由六部分组成:(1) 语义分割:包括 ADE20K (Zhou 等人 2019) 、COCO-Stuff (Caesar、Uijlings 和 Ferrari 2018) 、Maplilary Vistas (Neuhold 等人 2017) 、PACO-LVIS (Ramanathan 等人 2023) 和 PASCAL-Part (Chen 等人 2014) ;(2) 引用分割:包括 RefCLEF (Jing 等人 2021) 和 RefCOCO 系列 (Yu 等人 2016) ;(3) 图像级字幕:包括 COCO Caption (Chen 等人 2015) ;(4) 视觉问答:包括 LLaVA-150k (Liu 等人 2024b) (5) 基于语境的对话生成,包括 GranDf。 此外,我们还使用了来自 Grounding-anything Dataset (GranD) 的大约 400 万张字幕和引用分割数据 1







请到「今天看啥」查看全文