专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

基于粗到细一致性约束的多任务视觉定位

FightingCV · 公众号 · · 2025-02-13 09:00

正文

摘要

多任务视觉定位涉及基于文本表达同时进行图像中的定位和分割。大多数先进方法主要关注基于 Transformer 的多模态融合，旨在提取鲁棒的多模态表示。然而，指代表达理解 (REC) 和指代图像分割 (RIS) 之间的模糊性容易出错，导致多任务预测之间出现不一致。此外，多模态理解不足直接导致目标感知偏差。为了克服这些挑战，我们提出了一种基于粗到细一致性约束的视觉定位架构 ( C 3 ⁢ VG )，该架构在一个两阶段框架内集成了隐式和显式建模方法。最初，使用查询和像素解码器生成初步的检测和分割输出，此过程称为粗略语义感知 (RSP) 阶段。随后，通过提出的掩码引导交互模块 (MIM) 和一种新颖的显式双向一致性约束损失来细化这些粗略预测，以确保跨任务的一致表示，我们将其称为细化一致性交互 (RCI) 阶段。此外，为了应对多模态理解不足的挑战，我们利用基于视觉语言融合表示的预训练模型。在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上的实证评估证明了 C 3 ⁢ VG 的有效性和可靠性，它比最先进的 REC 和 RIS 方法显著提高了一个很大的幅度。代码和模型将在 https://github.com/Dmmm1997/C3VG 提供。

引言

视觉定位是视觉语言领域中的一个关键任务，旨在通过将给定的指代表达定位在图像中来建立图像和文本之间的细粒度对应关系 (Li et al. 2022b) 。此任务通常根据基础方法分为两个子任务：指称表达理解 (REC) (Yu et al. 2018; Kamath et al. 2021) 和指称图像分割 (RIS) (Kim et al. 2022; Tang et al. 2023) 。传统上，REC 和 RIS 被视为具有不同技术途径的独立任务，需要复杂且特定于任务的设计。然而，REC 和 RIS 表现出显著的相似性并具有互补的优势，使其统一既合乎逻辑又具有优势。最近，多任务视觉 grounding 获得了突出地位，因为它消除了对特定于任务的网络设计的需求，并能够利用两个任务中的数据来相互增强性能。 MCN (Luo et al. 2020) 是第一个联合训练 REC 和 RIS 任务的方法，它采用了一种可学习的方法来建立注意力图的一致性。最近的研究主要集中在增强不同模态之间的交互 (Li and Sigal 2021; Su et al. 2023) 并探索自回归方法来实现检测和分割 (Zhu et al. 2022; Cheng et al. 2024; Liu et al. 2023a) 。在本文中，我们解决了两个被忽视的问题： 1) 如何有效地利用多任务预测的互补性来减轻结果中的不一致性。 2) 如何克服多模态理解不足的挑战，以增强在复杂图像文本场景中的感知能力。

图1： (a) 多任务输出之间不一致结果的三个示例。 (b) 由于多模态理解不足导致目标识别失败的两个示例。

图2： (a) 提出的粗到细一致性约束框架中中间过程的示例。 (b) 两种预训练架构：左图说明了图像和文本模态的单独编码，然后使用单模态预训练进行融合；右图显示了具有多模态预训练的融合编码架构。

多任务之间不一致的预测主要是因为缺乏有效的约束来连接不同的任务。图 1 (a) 描绘了三个场景可以说明这个问题：(1) 分割准确但检测错误；(2) 分割不准确但检测正确；以及 (3) 分割和检测都不正确，但提供了互补信息。传统的 REC 是一对一的检测任务。当优化过程中出现不确定性时，检测到的结果往往位于潜在目标之间，导致局部最优解。相反，涉及更细粒度像素级预测的RIS任务可以更精确地识别目标，但往往缺乏足够的空间感知能力。因此，引入多任务一致性约束来指导模型补充信息，从而增强在模糊情况下的识别能力至关重要。为此，我们提出了一种用于多任务视觉定位的粗到细架构，命名为 C 3 ⁢ VG 。结构如图 3 所示。最初，我们采用像素解码器和查询解码器在粗略语义感知 (RSP) 阶段独立生成粗略的前景语义和定位区域。随后，改进的一致性交互 (RCI) 阶段对其进行细化，并强制执行多任务结果之间的一致性。在RCI阶段，我们引入了一个掩码引导交互模块 (MIM) 来隐式地整合来自RSP阶段的多任务结果。此外，我们应用双向一致性约束损失来显式地强制执行跨任务的一致性。如图 2 (a)所示，RSP阶段提供粗略的定位和语义结果。基于这些先验知识，RCI阶段应用一致性约束以产生更高质量的预测。

多模态理解不足主要表现为无法有效捕获下游任务中模态之间的语义关联，尤其是在数据有限的情况下。图 1 (b)显示了由于多模态理解不足导致的两个识别错误实例：(1) 模型仅关注“杯子”而错误地识别为“蛋杯”；(2) 模型由于缺乏先验知识而误解了“iMac”。最近，SimVG (Dai et al. 2024) 证实了使用预训练多模态编码器来改进指称理解的重要性。然而，本文旨在将此结构从单一检测任务扩展到多任务学习框架，以验证其更广泛的有效性。如图 2 (a)左侧所示，以前的方法通常使用单模态预训练模型作为特征编码器，并依赖于有限的下游数据来学习视觉语言融合表示。近期，SimVG (Dai et al. 2024) 将下游多模态融合过程解耦并将其整合到上游预训练中，从而显著提高了REC任务的性能。图 2 (b) 说明了在上游预训练过程中两种模态的直接集成，这得益于视觉-语言预训练研究的进步 (Kim, Son, and Kim 2021; Wang et al. 2023) 。本文扩展了SimVG (Dai et al. 2024) 的结论，证明了多模态预训练模型的集成显著提高了RIS和多任务视觉定位任务的收敛速度和准确性。

我们的主要贡献总结如下：

1.

我们引入了一种创新且高效的粗到细架构， C 3 ⁢ VG ，专门为多任务视觉定位而设计。
2.

我们设计了一个掩码引导交互模块和一个双向一致性约束损失，以应对多任务预测不一致的挑战。这些组件分别促进了隐式交互并为多任务预测提供了显式监督。
3.

我们将预训练的多模态编码器从单任务设置扩展到多任务联合训练框架，并验证了其在解决多模态理解不足问题上的影响。
4.

提出的 C 3 ⁢ VG 框架在RefCOCO/+/g数据集上针对REC和RIS任务均显著优于最先进的方法，同时只需要一半甚至更少的训练轮次。

提出的 C 3 ⁢ VG

图3：提出的 C 3 ⁢ VG 的整体框架。首先，使用多模态编码器融合和编码图像和文本特征。在RSP阶段，像素解码器和查询解码器生成粗略的分割和检测结果。在RCI阶段，这些多任务先验通过交互和一致性约束得到进一步细化。

架构概述

图 3 提供了 C 3 ⁢ VG 架构的概述。最初，图像和文本模态分别嵌入并通过多模态编码器 (MME) 进行处理，以进行视觉语言编码和融合，将多模态融合的联合表示置于上游。可学习的对象符元也用作REC任务的特征表示。然后，框架通过RSP和RCI阶段，最终产生高质量的预测结果。

多模态编码器。

C 3 ⁢ VG 的输入包括图像 I ∈ ℝ 3 × H × W 和标题文本 T ∈ Ω M ，其中 Ω 表示词汇集。图像最初使用视觉嵌入将其下采样到原始大小的1/16，从而得到 P i = { p 1 , p 2 , … , p N i } 。然后将文本标记化为 L t = { l 1 , l 2 , … , l N t } 。此外，我们将可学习的对象符元 T o 定义为REC分支的目标特征。 MME 的输入可以表示为：

MME 架构利用 BEiT-3 (Wang et al. 2023) 模型的预训练权重。 MME 的输出包含三个组成部分： T o ∈ ℝ B × 1 × C ， T t ∈ ℝ B × N t × C ， T i ∈ ℝ B × N i × C 。

粗略语义感知阶段。

RSP 阶段旨在生成粗略的定位和语义轮廓，作为 RCI 阶段的先验信息。最初，MME 的输出通过三个未共享的线性层投影到一个公共维度：

对于 REC 分支，该过程从查询解码器开始，该解码器通过与文本和图像符元交互来增强目标符元的表示。查询解码器定义为：

其中 MCA( A 1 ， A 2 ) 表示多头交叉注意力机制， A 1 作为查询， A 2 作为键和值。随后，采用 MLP 来回归和预测 REC 输出 P b c ∈ ℝ B × 4 。对于 RIS 分支，我们采用类似于 CRIS (Wang et al. 2022) 的文本到像素相关策略来生成预测掩码 P s c ∈ ℝ B × H × W 。然而，我们并没有使用带填充的 3 × 3 卷积，而是使用 1 × 1 卷积压缩文本，而无需额外填充。

细化一致性交互阶段。

细化一致性交互 (RCI) 阶段旨在协调 RSP 阶段的输出，通过隐式交互和显式约束确保多任务一致性。我们首先引入一个掩码引导交互模块 (MIM)，该模块自适应且隐式地对齐检测和分割预测之间的一致性。此外，还加入了一个辅助双向一致性约束损失，以在结果级别显式地强制执行对齐。在REC分支中，利用一个MLP层在RCI阶段回归目标特征。在RIS分支中，我们集成了SimFPN (Li et al. 2022d) 来捕获多层次结构，随后是一个UNet风格的 (Ronneberger, Fischer, and Brox 2015) 解码器，它执行多层次融合和像素解码，这与RSP阶段采用的方法一致。

Mask引导交互模块

图4： Mask引导交互模块(MIM)的架构。 ”坐标嵌入”表示一个将坐标位置映射到隐藏空间的线性层。

RSP阶段为RCI阶段提供空间先验信息，而MIM旨在以可学习的方式隐式地建模RSP阶段多任务结果之间的关系。在REC分支中，基于RSP阶段的检测结果 P b c ∈ ℝ B × 4 ，这些结果表示为 ( x , y , w , h ) ，执行两个操作。 (1) 结果被用作ROI，从 F i ⁢ m ⁢ g 中池化特征。 (2) 通过坐标嵌入(CoE)获得坐标表示。然后，RSP阶段的框特征 F b c 计算如下：

其中RoIP表示Faster R-CNN (Ren et al. 2015) 中的RoI池化操作。为了使边界框能够利用来自RIS分支的结构信息并确保一致的预测，我们将 F b c 与文本和视觉特征进行交互。最终交互的目标特征 F b ⁢ o ⁢ x 表示为：

其中 F u ′ 的计算在公式 10 中详细说明。

在RIS分支中，我们通过利用REC和RIS分支在 F i ⁢ m ⁢ g 上的结果，应用了背景抑制和前景增强的概念。首先， P b c 通过四舍五入转换为左上角和右下角格式，如下所示：

其中 ⌊ ∗ ⌋ 表示下取整函数， ⌈ ∗ ⌉ 表示上取整函数。 NLS生成一个与 F i ⁢ m ⁢ g 维度相同的权重掩码 W b ，计算方法如下：

其中 ∀ x i ∈ [ 0 , w ] 和 ∀ y j ∈ [ 0 , h ] 。 w 1 分别设置为默认值0.1。然后，我们将Sigmoid函数应用于RSP阶段预测的掩码，以生成加权掩码 W s = σ ⁢ ( P s c ) 。将权重 W b 和 W s 应用于 F i ⁢ m ⁢ g ，以获得受边界框和掩码约束的特征 F u ：

接下来，一个多层感知器（MLP）将通道维度从 3 × C 降低回原始的 C ，产生融合的图像表示 F u ′ ，其中包含了RSP阶段的预测结果。此过程隐式地为RCI阶段提供了源自检测和分割预测的先验空间注意力信息。如图 5 所示，两只猫的存在导致了不同的注意力预测，从而导致在RSP阶段对边界框预测的次优调整。 MIM通过对图像空间内高响应区域施加约束来缓解这个问题，从而减少模型对无关目标的关注，并实现更精确的目标识别。此外，融合的图像表示与文本交互，然后通过一个多头自注意力（MSA）层来进一步学习一致的语义关联。此过程表示如下：

图5：中间模型过程的可视化。第一行：原始图像、真实值（GT）、RSP阶段和RCI阶段结果。第二行：原始、边界约束、掩码约束和统一约束热力图。

双向一致性约束损失

为了补充MIM在多任务输出中促进的隐式交互，我们提出了一种显式的双向一致性约束损失，记为 ℒ b ⁢ c ⁢ c 。首先， ℒ m ⁢ 2 ⁢ b 旨在强制分割掩码包含在预测的边界框内：

其中 p i , j s 表示应用sigmoid函数后预测分割掩码的像素值， ∀ i ∈ [ 0 , w ] 和 ∀ j ∈ [ 0 , h ] 。 t 设置为0.5。 P b 表示边界框预测。其次，损失项 ℒ b ⁢ 2 ⁢ m 定义如下：

其中 P b s 表示包围分割掩码 M s 的最小边界框， P b 表示预测的边界框。此损失使用交并比（IoU）度量进行量化，该度量衡量从分割掩码导出的边界框与预测边界框之间的重叠程度。它确保预测的边界框尽可能全面地包含分割掩码。最后，整体一致性约束损失定义为 ℒ b ⁢ c ⁢ c = λ 1 ⁢ ℒ b ⁢ 2 ⁢ m + λ 2 ⁢ ℒ m ⁢ 2 ⁢ b ，权重系数 λ 1 和 λ 2 分别设置为1和3。

训练目标

多任务视觉接地的主要优化损失包括两个主要组成部分：REC和RIS，其定义如下：

其中权重因子 σ l ⁢ 1 和 σ g ⁢ i ⁢ o ⁢ u 分别设置为0.5和0.2，而 σ d ⁢ i ⁢ c ⁢ e 和 σ b ⁢ c ⁢ e 默认都设置为1.0。 ℒ r ⁢ e ⁢ c 和 ℒ r ⁢ i ⁢ s 都包含两阶段组件，并通过双向一致性约束损失 ℒ b ⁢ c ⁢ c 进行增强。总损失公式如下：

其中 λ r ⁢ e ⁢ c 、 λ b ⁢ c ⁢ c 和 λ c 分别设置为0.5、0.1和0.3。这里， ℒ r ⁢ e ⁢ c c 表示RSP阶段的REC损失，而 ℒ r ⁢ i ⁢ s f 对应于RCI阶段的RIS损失。

实验

实验设置

我们在RefCOCO (Yu et al. 2016) 、RefCOCO+和RefCOCOg (Nagaraja, Morariu, and Davis 2016) 数据集上评估了所提出的模型。最大句子长度设置为20。图像大小调整为 320 × 320 。基于先前的工作 (Zhu et al. 2022) ，采用mIoU和[email protected]（消融研究中的Acc(REC)）来评估方法的性能。我们使用批量大小为16的训练模型进行了30个轮次的训练。采用Adam (Kingma and Ba 2014) 作为我们的优化器。所有实验都在配备双NVIDIA 4090 GPU的系统上进行。更多细节将在补充材料中提供。


Method	Publication	Backbone	Data Size	RefCOCO			RefCOCO+			RefCOCOg		Time
Method	Publication	Backbone	Data Size	val	test A	test B	val	test A	test B	val(U)	test(U)	(ms)
Single-task
MDETR (Kamath et al. 2021)	ICCV2021	EfficientNet-B3	200K	86.75	89.58	81.41	79.52	84.09	70.62	81.64	80.89	108
TransVG++ (Deng et al. 2023)	T-PAMI2023	ViT-B	-	86.28	88.37	80.97	75.39	80.45	66.28	76.18	76.30	-
Dyn.MDETR (Shi et al. 2023)	T-PAMI2023	ViT-B	-	85.97	88.82	80.12	74.83	81.70	63.44	72.21	74.14	-
GroundingDINO (Liu et al. 2023b)	ECCV2024	Swin-T	200K	89.19	91.86	85.99	81.09	87.40	74.71	84.15	84.94	120
SimVG (Dai et al. 2024)	NeurIPS2024	BEiT3-ViT-B	174K	90.59	92.80	87.04	83.54	88.05	77.50	85.38	86.28	44
Multi-task
MCN (Luo et al. 2020)	CVPR2020	DarkNet53	-	80.08	82.29	74.98	67.16	72.86	57.31	66.46	66.01	56
SeqTR (Zhu et al. 2022)	ECCV2022	DarkNet53	174K	81.23	85.00	76.08	68.82	75.37	58.78	71.35	71.58	50
PolyFormer (Liu et al. 2023a)	CVPR2023	Swin-B	174K	89.73	91.73	86.03	83.73	88.60	76.38	84.46	84.96	152
PVD (Cheng et al. 2024)	AAAI2024	Swin-B	-	84.52	87.64	79.63	73.89	78.41	64.25	73.81	74.13	-
EEVG (Chen, Chen, and Wu 2024)	ECCV2024	ViT-B	174K	90.47	92.73	87.72	81.79	87.80	74.94	85.19	84.72	117
Generalist Models
Ferret (You et al. 2023)	ICLR2024	Vicuna-7B	> 8 ⁢ M	87.49	91.35	82.45	80.78	87.38	73.14	83.93	84.76	-
LION-12B (Chen et al. 2024)	CVPR2024	FlanT5-11B	3.6M	89.80	93.02	85.57	83.95	89.22	78.06	85.52	85.74	-
C 3 ⁢ VG	AAAI2025	BEiT3-ViT-B	28K	92.51	94.60	88.71	87.44	90.69	81.42	87.68	88.31	51

表1：主要结果在REC数据集上。粗体表示最佳性能。下划线表示第二好性能。


Method	Publication	Backbone	Data	FT	RefCOCO			RefCOCO+			RefCOCOg
Method	Publication	Backbone	Data	FT	val	test A	test B	val	test A	test B	val(U)	test(U)
Single-task
CRIS (Wang et al. 2022)	CVPR2022	ResNet101	RefC	✘	70.47	73.18	66.10	62.27	68.06	53.68	59.87	60.36
LAVT (Yang et al. 2022)	CVPR2022	Swin-B	RefC	✘	74.46	76.89	70.94	65.81	70.97	59.23	63.34	63.62
ReLA (Liu, Ding, and Jiang 2023)	CVPR2023	Swin-B	RefC	✘	73.82	76.48	70.18	66.04	71.02	57.65	65.00	65.97
Prompt-RIS (Shang et al. 2024)	CVPR2024	CLIP-ViT-B	Com-RefC	-	78.10	81.21	74.64	71.13	76.60	64.25	70.47	71.29
OneRef (Xiao et al. 2024)	NeurIPS2024	BEiT3-ViT-B	Com-RefC	✔	79.83	81.86	76.99	74.68	77.90	69.58	74.06	74.92
Multi-task
MCN (Luo et al. 2020)	CVPR2020	DarkNet53	RefC	✘	62.44	64.20	59.71	50.62	54.99	44.69	49.22	49.40
SeqTR (Zhu et al. 2022)	ECCV2022	DarkNet53	Com-RefC	✔	71.70	73.31	69.82	63.04	66.73	58.97	64.69	65.74
PolyFormer (Liu et al. 2023a)	CVPR2023	Swin-B	Com-RefC	✔	75.96	77.09	73.22	70.65	74.51	64.64	69.36	69.88
PVD (Cheng et al. 2024)	AAAI2024	Swin-B	Com-RefC	✔	74.82	77.11	69.52	63.38	68.60	56.92	63.13	63.62
EEVG (Chen, Chen, and Wu 2024)	ECCV2024	ViT-B	Com-RefC	-	79.49	80.87	77.39	71.86	76.67	66.31	73.56	73.47
Generalist Models
LISA (Lai et al. 2024)	CVPR2024	Vicuna-7B	-	✔	74.90	79.10	72.30	65.10	70.80	58.10	67.90	70.60
GSVA (Xia et al. 2024)	CVPR2024	Vicuna-7B	-	✔	77.20	78.90	73.50	65.90	69.60	59.80	72.70	73.30
C 3 ⁢ VG	AAAI2025	BEiT3-ViT-B	Com-RefC	✘	81.37	82.93	79.12	77.05	79.61	72.40	76.34	77.10
C 3 ⁢ VG -oIoU	AAAI2025	BEiT3-ViT-B	Com-RefC	✘	80.89	83.18	77.86	74.68	77.96	68.95	74.43	76.39

表 2: 主要结果在 RIS 数据集上。粗体表示最佳性能，下划线表示第二好性能。 RefC 表示在单个数据集上进行训练，而 Com-RefC 指的是 RefCOCO、RefCOCO+ 和 RefCOCOg 训练集的并集。 FT 表示是否在特定数据集上进行了微调。

主要结果

指称表达式理解。表 1 中展示的单任务部分展示了我们的方法与先前先进的 REC 方法之间的比较。与使用 ViT-B 作为其骨干的 Dynamic MDETR 相比， C 3 ⁢ VG 在 Acc(REC) 上取得了 +5.78%-17.98% 的显著改进。此外，与在大型数据集上训练的 GroundingDINO (Liu et al. 2023b) 相比， C 3 ⁢ VG 在 Acc(REC) 上获得了 +2.72%-6.71% 的提升，同时还将推理延迟降低了 58%。

指称图像分割。表 2 中展示的单任务部分比较了我们的 C 3 ⁢ VG 与之前的先进 RIS 方法。