专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
证券时报  ·  中概股,继续猛攻! ·  2 天前  
中国证券报  ·  万科公告:深铁集团拟向公司提供42亿元借款 ·  2 天前  
上海证券报  ·  沸腾!601728、600050,涨停 ·  3 天前  
直播海南  ·  刚刚,江苏泰州地震 ·  3 天前  
中国证券报  ·  榜单揭晓!事关银行理财 ·  3 天前  
51好读  ›  专栏  ›  FightingCV

OMG-LLaVA:桥接图像级、对象级、像素级推理和理解

FightingCV  · 公众号  ·  · 2025-02-01 09:00

正文

摘要

当前的通用分割方法在像素级图像和视频理解方面表现出强大的能力。 然而,它们缺乏推理能力,无法通过文字指令进行控制。 相比之下,大型视觉语言多模态模型表现出强大的基于视觉的对话和推理能力,但缺乏像素级理解,并且难以接受灵活的用户交互的视觉提示。 本文提出了 OMG-LLaVA,这是一种新的、优雅的框架,结合了强大的像素级视觉理解和推理能力。 它可以接受各种视觉和文本提示,以实现灵活的用户交互。 具体来说,我们使用通用分割方法作为视觉编码器,将图像信息、感知先验和视觉提示集成到提供给大语言模型的视觉标记中。 大语言模型负责理解用户的文本指令,并根据视觉信息提供文本响应和像素级分割结果。 我们提出感知先验嵌入,以更好地将感知先验与图像特征结合起来。 OMG-LLaVA 在单个模型中实现了图像级、对象级和像素级推理和理解,在多个基准上匹配或超越了专门方法的性能。 我们的工作目标不是使用大语言模型来连接每个专家,而是在一个编码器、一个解码器和一个大语言模型上进行端到端训练。 代码和模型已发布以供进一步研究。

1 简介

随着 Transformer 模型的开发 [92; 6; 91; 38; 69; 90; 62; 124; 47; 85; 10; 19; 56] ,自然语言处理 (NLP) 和计算机视觉的最新研究都出现了一种共同趋势:采用一个统一的模型来解决多个任务。 例如,大型语言模型 (LLM) [91; 38; 90] 采用规模化模型来解决多个 NLP 任务,并取得比以前专家模型更好的结果。 在视觉领域,我们也看到了类似的趋势 [19; 56; 98; 97; 45; 110] ,采用一个模型来解决多个任务或子任务,包括检测、分割、视频分析、低级视觉、姿态估计等等。 不同的方法采用不同的 Transformer 设计,包括视觉上下文学习 [97; 98] 、统一解码器 [19; 56] 和统一词元化 [84; 16; 56] 总之,得益于 Transformer 的 可扩展性 灵活性 ,采用一个模型来完成所有任务已经取得了很大进展 [19; 69; 70; 68; 124; 86; 85]

同时,通过结合视觉模型和语言模型 [69; 70; 68; 62; 63; 105] ,多模态模型研究也采用了基于 Transformer 的设计。 一项代表性工作,LLaVA [69; 70; 68] ,将视觉词元作为 LLM 的输入,让 LLM 理解视觉内容。 几项工作采用了类似的设计 [3; 13; 62; 18; 25] ,它们都被称为多模态大型语言模型 (MLLM)。 之后,大多数研究集中在通过各种方式改进 MLLM 基准,包括增加数据大小 [14; 18; 68] 和增强视觉编码器 [129; 24; 18] 和视觉分辨率 [108; 18; 63; 25] 然而,类似 LLaVA 的模型无法输出精确的位置信息,因为它们只进行图像级分析。 因此,最近的研究 [124; 131; 11; 80; 13; 117; 126; 85; 65] 试图通过添加额外的检测模型进行物体级分析、掩码解码器进行像素级分析、视觉提示来弥补这些差距,并提出使用各种数据集进行特定任务的指令调整。 通过提供额外的检测数据和解码器,更新的 MLLM 可以执行定位输出。 然而,这些模型 [133; 94; 47] 是针对特定任务进行专门调整的,因此失去了 LLaVA 用于图像级分析的能力,例如标题和视觉问答。 同时,一些研究 [124; 47; 85; 76] 采用 LLM 作为代理,与各种视觉模型或生成模型协同工作。 尽管工作简单有效,但由于多个视觉编码器和解码器,推理和参数成本巨大。 此外,没有针对任务统一的具体设计。

图1 OMG-LLaVA 的综合能力。 OMG-LLaVA 可以处理各种像素级、对象级和图像级理解和推理任务。

受前面分析的启发,我们提出一个基本问题:我们能否将图像级、对象级和像素级任务桥接到一个仅用一个大语言模型、一个视觉编码器和一个视觉解码器的 MLLM 模型中? 回到通用感知模型,我们可以利用这些模型来帮助我们构建更强大的 MLLM,以统一三级输入,包括图像、对象和像素级。 具体来说,我们采用 OMG-Seg [56] 作为我们的通用感知模型,因为它在各种分割任务中的简单性和有效性。

在这项工作中,我们提出了 OMG-LLaVA,这是一种优雅的 MLLM,可以在一个模型中连接图像级、对象级和像素级推理和理解任务。 我们通过冻结视觉编码器和解码器来保留 OMG-Seg 的基本像素级分割能力,如图 1 左下角所示。 由于 LLM 处理文本输入,OMG-LLaVA 也可以执行引用分割、推理分割以及接地对话和生成,如图 1 左上角所示。 此外,如图 1 所示,在 LLMs 的帮助下,OMG-LLaVA 还可以像 LLaVA 一样执行图像级理解,包括标题和对话,而大多数用于接地的 MLLM 失去了这种能力。 此外,OMG-LLaVA 还支持视觉提示作为输入,从而实现对象级理解,例如基于视觉提示的对话和区域级字幕。 我们使用一个大语言模型、一个编码器和一个解码器来实现所有这些能力。

特别是,为了更好地编码视觉分割输出,我们提出了一种感知先验嵌入模块,将对象查询吸收到以对象为中心的视觉标记中,这些标记是大语言模型的输入。 我们提出了一个统一的指令形成策略,让模型接受视觉图像、文本和视觉提示作为输入,并生成文本、分割标记、分割掩码和标签的响应。 遵循 LLaVA [69] ,我们采用预训练和指令微调管道。 大量的实验证明了我们的组件和训练策略的有效性。 除了视觉分割之外,OMG-LLaVA 还可以在 6 个数据集上获得足够好的性能,包括 COCO 全景分割、VIPSeg 视频全景分割、refCOCO、refCOCO+、refCOCOg 指代表达分割、GranDf 接地对话生成和 refCOCOg 区域标题数据集。 我们希望我们的研究能够以更优雅的方式为社区激发 MLLM 设计的研究。

图2 当前 MLLM 架构总结:(a)仅具有图像级能力的 MLLM,包括 [69; 70; 68; 63] 等,(b)具有对象级能力的 MLLM,包括 [124; 85] ,(c)具有像素级能力的 MLLM,包括 [47; 86] 等,(d)具有对象级和像素级能力但系统非常复杂的 MLLM,例如 [85] ,(e)OMG-LLaVA 的架构,它拥有优雅简单的设计,同时具有图像级、对象级和像素级能力。

2 相关工作

多模态大语言模型。 早期的多模态模型 [51] 探讨了更好的融合策略、各种特征提取器和不同的元架构。 大多数作品专注于单一任务,例如标题和 VQA。 随着大型语言模型的发展 [6; 91; 38] ,最近的研究 [50; 3; 90; 69; 17] 主要探索为多个多模态基准 [37; 72; 60; 30] 建立指令微调管道。 LLaVA [69; 68; 67; 104; 134] 是较早将视觉特征视为符元的工作之一。 此后,一些研究 [124] 探索了视觉提示以增强 LLaVA 的视觉输入。 另一方面,一些研究 [127; 125; 86; 129; 24; 25; 64; 128; 81; 36; 47] 添加了额外的组件来使 LLaVA 适应视觉接地、检测、分割和视频分析。 特别是,一些作品探索了语言驱动的基础和分割。 然而,这些作品都是有特定目的而训练的。 我们的目标是构建最简单的模型,将分段、指令调整和提示驱动的分段统一在一个模型中。 据我们所知,我们是第一个实现这一目标的模型。

统一的细分模型。 视觉 Transformer [10; 26; 77; 92] 已经引起了人们对通用分割的研究兴趣。 最近的研究 [93; 19; 121; 54; 21; 115; 113; 71; 89; 122; 120; 137; 109; 52; 139] 开发了具有端到端集预测方法的掩码分类架构,在图像、视频和泛化分割任务 [43; 59; 57] 中都优于以前的专业模型 [12; 44; 34; 55; 32; 58; 138] 尤其是,一些研究探索了开放世界分割,包括实体分割 [83; 82] ,开放词汇分割 [123; 103] 同时,一些研究 [56; 39; 109; 110; 31; 2] 采用一个具有共享参数的模型来执行各种分割任务。 最近的一项研究,OMG-Seg [56] ,首次在一个简单的模型中统一了图像、视频、开放词汇和交互式分割。 然而,所有这些工作都集中在视觉分割上,无法像 MLLMs 一样生成交互式文本和视觉提示。 我们的工作构建了这样一座桥梁,通过联合协同训练和模型共享来协调 MLLM、视觉分割和提示驱动的分割模型,这作为该领域的新基线。

语言驱动的定位和分段。 早期工作 [118; 66; 42; 23; 102; 133] 主要定义了各种语言驱动的任务,包括参考分割和参考定位。 大多数工作 [29; 5; 114; 75; 101; 103] 设计了有效的融合模块来实现更好的性能。 同时,一些工作 [53; 101; 106; 47; 85; 124; 79] 从各个方面探索了更复杂语言驱动的任务,包括鲁棒性、推理和区域级标题。 LISA [112] 涉及基于推理的分割。 然后,GLaMM [85] 标注了一个新的数据集,并提出了区域级标题和分割任务。 同时,一些工作 [28; 70] 使用 LLMs 作为代理来分配不同的视觉专家。 与这些作品相比,我们的方法是一种更优雅的基线,其中 包含一个视觉编码器、一个大语言模型和一个解码器。

视觉提示。 凭借 LLMs 的提示能力,一些工作 [98; 97; 4; 136; 88; 49; 79] 也探索了视觉中的视觉提示方法。 根据设计和目的,这些工作可以分为不同的方面,包括可学习的符元 [136] 、针对不同任务的掩码视觉建模 [98; 27; 96] 以及用于视觉输出的各种视觉提示编码器 [97; 99; 123; 45] 我们的 OMG-LLaVa 还支持视觉提示,以便更好地与用户的输入进行交互,展示产品用途的潜力。

3 方法论

表1 不同型号的能力比较。 我们在这里包括几种有代表性的方法。 我们的 OMG-LLaVA 提供最全面的功能,涵盖图像级、对象级和像素级理解和推理。 [85; 33] 相比,OMG-LLaVA 具有优雅简洁的系统架构,只有一个视觉编码器。

Method Visual Image-level Object-level Pixel-level
Encoder Caption Conversation Visual Prompts Caption Conversation Universal Seg RES GCG
LLAVA [69] 1





MiniGPT4 [140] 1





mPLUG-Owl [116] 1





LLaMA-Adapter [130] 1





Mini-Gemini [63] 2





InternVL 1.5 [18] 1





VisionLLM [95] 1




Shikra [13] 1 Point & Box


Kosmos-2 [80] 1 Box


GPT4RoI [131] 1 Box


Ferret [117] 1 Point & Box & Mask


Osprey [124] 1 Mask


SPHINX-V [65] 1 Point & Box & Mask


LISA [47] 2



GLAMM [85] 2 Box
Groundhog [132] 4 Point & Box & Mask
AnyRef [33] 2 Box

PixelLM [86] 1




GSVA [107] 2




Groma [76] 1 Box


VIP-LLaVA [8] 1 Point & Box & Mask


PSALM [133] 1

Point & Box & Mask


LaSagnA [100] 2






OMG-Seg [56] 1

Point



OMG-LLaVA 1 Point & Box & Mask


3.1 任务统一

动机和我们的目标。 大语言模型将大多数NLP任务统一为词符生成任务,并表现出强大的推理和指令跟踪能力。 如图 2 (a) 所示,LLaVA 类模型 [69; 68; 67; 108; 63; 129; 24; 25; 18; 62] 将视觉符元引入 LLMs,使 LLMs 能够理解视觉信息并执行基于视觉的推理。 然而,它们无法完成细粒度的视觉任务,例如对象级和像素级的理解和推理。 如图 2 (b) 所示, [124; 131; 11; 80; 13; 117] 引入区域级视觉嵌入,使 LLMs 能够实现对象级理解和推理任务。 然而,这些模型依赖于复杂的区域嵌入提取设计。 此外,大多数无法执行像素级的理解任务。 因此,如图 2 (c) 所示, [47; 86; 33] 引入分割符元,使 LLMs 能够输出分割掩码,从而处理像素级理解和推理任务。 然而,它们需要一个大型分割模块,例如 SAM [45] ,这使得系统高度冗余。 如图 2 (d) 所示,GLAMM [85] 将上述流水线结合起来处理对象级和像素级任务。 然而,这显着增加了系统的 复杂性 冗余 此外,GLAMM 依赖于用户的显式指令, 失去 处理基本像素级理解任务(例如实例分割、语义分割、全景分割和交互式分割)的感知能力。

在本文中,我们专注于以更简单而优雅的方式解决上述所有挑战。 我们的 OMG-LLaVA 统一了图像级(例如图像标题和基于图像的对话)、对象级(例如区域标题和基于视觉提示的对话)和像素级(例如通用分割、引用分割、推理)分割和基础对话生成)视觉理解和推理任务转化为 Token 到 Token 的生成。 该框架遵循简洁优雅的系统设计,仅包含一个视觉感知模块和一个大型语言模型。

图3 OMG-LLaVA 概述。 OMG-LLaVA由OMG-Seg和大语言模型组成。 OMG-Seg 将图像标记为以像素为中心的视觉标记、检测到的对象,并将视觉提示输入到以对象为中心的视觉标记中。 此外,大语言模型输出的[SEG]词符被OMG-Seg解码为分段掩码。 OMG-Seg 在所有阶段都保持冻结状态。

不同任务的统一视图。 我们将各种任务建模为 Token 到 Token 的生成,以弥合图像级、对象级和像素级理解和推理之间的差距。 为了支持这些任务,我们定义了三种类型的标记:文本标记 T t 、以像素为中心的视觉标记 T p v 和以对象为中心的视觉标记 T o v 文本标记对文本信息进行编码。 以像素为中心的视觉标记代表密集的图像特征,为大语言模型提供全面的图像信息。 以对象为中心的视觉标记对指定对象的特征进行编码,提供大语言模型以对象为中心的信息,并且可以轻松解码为分割掩模。

那么,所有的任务可以统一为:

例如,在经典的图像级理解任务中,即图像标题,基于文本指令 T t i n 和图像特征 T p v i n 生成文本响应 T t o u t 在对象级理解任务中,区域字幕,根据文本指令 T t i n 、图像特征 T p v i n 和指定的以对象为中心生成文本响应 T t o u t 视觉标记 T o v i n 像素级推理任务,即指分割,涉及基于文本指令 T t i n 和图像特征 T p v i n 生成以对象为中心的视觉标记 T o v o u t 此外,OMG-LLaVA 可以支持各种混合级别的任务,例如提供围绕指定对象的基础描述。

可以通过使用 CLIP 主干作为标记器对图像进行标记来获得以像素为中心的视觉标记。 然而,以对象为中心的视觉标记需要对对象信息进行编码,以便能够轻松地将其解码为分段掩码。 因此,Osprey [124] 中的掩码池化和 GLaMM [85] 中的 ROI 池化等方法无法满足这些要求。 我们发现通用感知解码器可以满足所有要求。 因此,由于其全面的功能,我们选择 OMG-Seg 解码器 [56] 作为以对象为中心的标记器。

图4 OMG 解码器的架构。 一个简单的注意力掩码生成策略使 OMG 解码器能够对点、框和掩码提示进行编码。

3.2 OMG-LLaVA框架

OMG-LLaVA 的框架如图 2 (e) 所示。 OMG-LLaVA包括一个大语言模型(大语言模型)和一个 冻结 通用感知模块。 通用感知模块将用户的图像和视觉提示编码为以像素为中心和以对象为中心的视觉标记。 它将大语言模型输出的以对象为中心的视觉标记转换为显式分段掩码响应。 大语言模型接受来自通用感知模块的文本指令标记以及以像素为中心和以对象为中心的视觉标记作为输入,然后输出文本响应以及以对象为中心的视觉标记。 OMG-LLaVA 的详细架构如图 3 所示。 通用感知模块包含图像编码器、OMG 解码器 [56] 和一个不可训练的感知先验嵌入组件。

图像编码器。 为了最大限度地发挥通用感知模块的感知能力,我们使用基于 ConvNeXt-L [73] 的 CLIP [84] 模型作为图像编码器,并采用高图像分辨率 (1024 × 1024)。 然而,大图像分辨率会导致向大语言模型输入过多的视觉标记,从而导致计算成本明显高于使用较低分辨率图像(例如 224 × 224 或 336 × ) >336)。 我们通过利用最低分辨率图像特征(32 × 下采样)来解决这个问题。 此外,我们使用像素洗牌算子来进一步降低图像特征的分辨率。 最终,用于生成视觉标记的图像特征的下采样因子为 64,这意味着 1024 × 1024 图像会生成 256 个视觉标记。

天啊解码器。 我们利用 OMG 解码器 [56] 生成以对象为中心的视觉标记,为 LLM 提供有关图像中主要对象的信息以及用户输入视觉提示中提到的对象信息。 如图 4 左侧所示,OMG 解码器包括掩蔽交叉注意力 [19] 和自注意力层。 OMG 解码器的输入包括一组可学习的对象查询 [20; 19; 10] ,用于自动捕获所有感兴趣的对象,以及从编码的输入视觉提示 [45] 中派生的视觉提示查询。 视觉提示查询和可学习对象查询统称为对象查询。 OMG 解码器通过采用屏蔽交叉注意力从图像特征中探测对象查询的特征,并通过自注意力对对象之间的关系进行建模。 对象查询可以通过简单的 FFN 层解码为分段掩码和对象类别。 借助 OMG 解码器,OMG-LLaVA 可以有效地将对象信息标记为以对象为中心的视觉标记,从而为大语言模型配备有关图像中的对象和用户引用的对象的信息。

OMG解码器可以接受点提示作为输入。 虽然框提示和遮罩提示可以轻松转换为点提示,但这种粗略的转换会显着丢失提示信息,从而使用户意图的显式编码变得复杂。 为了解决这个问题,我们可以根据视觉提示对屏蔽交叉注意层的注意掩模施加约束,以精确编码提示引用的对象信息。 如图 4 右侧所示,我们利用框坐标为框提示之外的所有像素特征定义注意力掩码。 类似地,我们直接使用提供的对象掩码来生成掩码提示的注意掩码。 通过这种简单的注意力掩模修改策略,OMG-LLaVA 可以准确捕获用户的视觉提示,包括点、框和掩模提示。

图5 感知先验嵌入策略的过程。 感知先验嵌入策略基于分割先验将对象查询集成到图像特征中。

感知先嵌入。 我们发现,直接将冻结的感知模块与 LLM 相结合效果不佳,LISA [47] 中也观察到了这一点。 为了保留通用感知模块的全部功能,OMG-LLaVA 没有对感知模块进行调整以适应大语言模型的输出。 相反,我们提出了一种感知优先嵌入策略来应对这一挑战。 5 说明了感知先验嵌入策略。

首先,我们将图像编码器输出的图像特征 H W × C 与OMG解码器 𝒟 输出的对象查询 𝒬 N q × C 融合。 具体来说,我们利用从对象查询获得的分割掩码 N q × H W 和相应的置信度得分 𝒮 1 × N q 来为对象查询的每个像素导出掩码得分 M S H W × N q

然后,我们根据掩码分数 M S 计算对象查询 𝒬 的加权平均值,并获得每个像素对应的加权对象查询。 以像素为中心的视觉标记 T p v 是通过将加权对象查询添加到图像特征 来获得的:

此外,我们将前景对象查询视为以对象为中心的视觉标记 T o v 以对象为中心的视觉标记 T o v 与以像素为中心的视觉标记 T p v 连接形成视觉标记 T v = ( T p v , T o v ) ,这些视觉标记被输入到大语言模型提供丰富的感知先验信息。

视觉投影仪和文本投影仪。 遵循 [69] ,我们使用 MLP 作为视觉投影器,它负责将视觉标记映射到 LLM 的文本嵌入空间。 由于我们的视觉 Token 由以像素为中心和以对象为中心的 Token 组成,因此视觉投影仪包含两个 MLP,每个 MLP 分别处理一种类型的视觉词符。 [47; 85] 的启发,我们还使用一个简单的 MLP 将 LLM 输出的 [SEG] 标记的隐藏状态映射到视觉空间。

指令制定。 OMG-LLaVA可以接受 视觉 输入、 文本 输入和 视觉提示 输入和输出文本响应以及分段词符、分段掩码和标签。 因此,它可以处理图像字幕、基于图像的对话、区域字幕、基于视觉提示的对话、指称分割、推理分割、扎根对话等任务。我们使用统一的指令公式来支持这些功能。 如图 3 所示,有三个特殊标记: [SEG] 在输入大语言模型之前, 词符被视觉词符 T v 所取代,而 词符可以被视觉提示编码的任何以对象为中心的视觉词符所取代。 大语言模型输出中的 [SEG] 词符被发送到冻结的OMG解码器,以解码为分段掩码。

3.3 训练和测试设置

训练。 遵循 LLaVA [69] ,我们的 OMG-LLaVA 执行两阶段训练:预训练和指令微调。 预训练阶段,感知模型和大语言模型被冻结,只能调整视觉和文本投影仪。 除了文本回归损失之外,我们还对视觉投影仪 𝒫 v 和文本投影仪 𝒫 t 应用正则化惩罚,以尽可能保留以对象为中心的信息。

在指令微调期间,除了对视觉投影器和文本投影器进行微调外,我们还使用 LoRA [35] 对 LLM 进行微调。 遵循 [85; 56] ,除了文本回归损失外,我们还应用交叉熵损失和骰子损失 [78] 来监督由[SEG]符元解码的分割掩码。

测试。 图像级、对象级和像素级理解和推理任务都可以包含在等式 1 范式中。 在推理阶段,我们将必要的任务要求(例如文本提示、视觉提示和图像特征)编码为标记以输入到大语言模型中。 然后根据任务定义将大语言模型的输出标记解码为文本响应和分段掩码响应。 我们建议读者查看附录中的更多详细信息。

表2 OMG-LLaVA 与其他 MLLM 在像素级和对象级理解和推理能力及性能方面的综合比较。 “-”表示该方法不处理该任务。 表明该方法使用 GranD 数据集 [85] 进行预训练,该数据集明显大于其他方法使用的数据集。

Method Visual COCO VIPseg refCOCO refCOCO+ GCG refCOCOg(C)
Encoder Num PQ VPQ cIoU cIoU METEOR AP50 METEOR
OSprey [124] 1 - - - - - - 16.6
LISA [47] 2 - - 74.1 62.4 13.0 25.2 -
NeXT-Chat [126] 2 - - 74.7 65.1 - - 12.0
LaSagnA [100] 2 - - 76.8 66.4 - - -
GSVA [107] 2 - - 76.4 64.5 - -
AnyRef [33] 2 - - 74.1 64.1 - - 16.2
GLaMM† [85] 2 - - 79.5 72.6 15.2 28.9 15.7
PixelLM [86] 1 - - 73.0 66.3 - - -
OMG-LLaVA 1 53.8 49.8 78.0 69.1 14.9 29.9 15.3


表 3 : 引用表达分割数据集的性能。 评估指标是cIoU。 “ft”表示对引用表达数据集进行微调。

Method Freeze Visual refCOCO refCOCO+ refCOCOg
Decoder Encoder Val TestA TestB Val TestA TestB Val Test
LISA [47] × 2 74.1 76.5 71.1 62.4 67.4 56.5 66.4 68.5
LISA(ft) [47] × 2 74.9 79.1 72.3 65.1 70.8 58.1 67.9 70.6
PixelLM [86]






请到「今天看啥」查看全文