提出的
C
3
VG
框架在RefCOCO/+/g数据集上针对REC和RIS任务均显著优于最先进的方法,同时只需要一半甚至更少的训练轮次。
相关工作
视觉定位
指代表达理解
(REC)
(Liu et al. 2019; Yang et al. 2020, 2024; Su et al. 2024; Zhuang et al. 2025)
基于指代表达预测一个紧密包围图像中目标对象的边界框。
指代图像分割
(RIS)
(Yang et al. 2022; Zhang et al. 2022; Liu et al. 2023c)
旨在基于指代表达提供图像中目标对象的像素级定位。
多任务视觉定位
旨在使用单个集成模型来定位和分割指代表达。
MCN
(Luo et al. 2020)
引入了一种一致性能量最大化损失,该损失约束REC和RIS中的特征激活图相似。
一些基于Transformer的方法
(Li and Sigal 2021; Chen, Chen, and Wu 2024)
寻求更全面的多模态建模方法来提高多任务视觉定位的性能。
SeqTR
(Zhu等人,2022)
和PolyFormer
(Liu等人,2023a)
采用顺序Transformer模型以统一的方式处理视觉和文本数据,通过顺序细化预测来增强多任务视觉定位的性能。
最近,基于MLLM的方法
(Lai等人,2024;Xia等人,2024)
利用MLLM的能力
(Liu等人,2024;Zhuang等人,2024)
来强制执行基于规则的预测序列化,有效地将REC和RIS任务集成到一个统一的框架中。
我们的工作遵循MCN的范式,主要探索和研究一致性约束。
然而,我们提出的
C
3
VG
通过隐式交互和显式监督进一步增强了模型一致性预测。
C
3
VG
的输入包括图像
I
∈
ℝ
3
×
H
×
W
和标题文本
T
∈
Ω
M
,其中
Ω
表示词汇集。
图像最初使用视觉嵌入将其下采样到原始大小的1/16,从而得到
P
i
=
{
p
1
,
p
2
,
…
,
p
N
i
}
。
然后将文本标记化为
L
t
=
{
l
1
,
l
2
,
…
,
l
N
t
}
。
此外,我们将可学习的对象符元
T
o
定义为REC分支的目标特征。
MME 的输入可以表示为:
MME 架构利用 BEiT-3
(Wang et al. 2023)
模型的预训练权重。
MME 的输出包含三个组成部分:
T
o
∈
ℝ
B
×
1
×
C
,
T
t
∈
ℝ
B
×
N
t
×
C
,
T
i
∈
ℝ
B
×
N
i
×
C
。
其中 MCA(
A
1
,
A
2
) 表示多头交叉注意力机制,
A
1
作为查询,
A
2
作为键和值。
随后,采用 MLP 来回归和预测 REC 输出
P
b
c
∈
ℝ
B
×
4
。
对于 RIS 分支,我们采用类似于 CRIS
(Wang et al. 2022)
的文本到像素相关策略来生成预测掩码
P
s
c
∈
ℝ
B
×
H
×
W
。
然而,我们并没有使用带填充的 3
×
3 卷积,而是使用 1
×
1 卷积压缩文本,而无需额外填充。
细化一致性交互阶段。
细化一致性交互 (RCI) 阶段旨在协调 RSP 阶段的输出,通过隐式交互和显式约束确保多任务一致性。
我们首先引入一个掩码引导交互模块 (MIM),该模块自适应且隐式地对齐检测和分割预测之间的一致性。
此外,还加入了一个辅助双向一致性约束损失,以在结果级别显式地强制执行对齐。
在REC分支中,利用一个MLP层在RCI阶段回归目标特征。
在RIS分支中,我们集成了SimFPN
(Li et al. 2022d)
来捕获多层次结构,随后是一个UNet风格的
(Ronneberger, Fischer, and Brox 2015)
解码器,它执行多层次融合和像素解码,这与RSP阶段采用的方法一致。
RSP阶段为RCI阶段提供空间先验信息,而MIM旨在以可学习的方式隐式地建模RSP阶段多任务结果之间的关系。
在REC分支中,基于RSP阶段的检测结果
P
b
c
∈
ℝ
B
×
4
,这些结果表示为
(
x
,
y
,
w
,
h
)
,执行两个操作。
(1) 结果被用作ROI,从
F
i
m
g
中池化特征。
(2) 通过坐标嵌入(CoE)获得坐标表示。
然后,RSP阶段的框特征
F
b
c
计算如下:
其中RoIP表示Faster R-CNN
(Ren et al. 2015)
中的RoI池化操作。
为了使边界框能够利用来自RIS分支的结构信息并确保一致的预测,我们将
F
b
c
与文本和视觉特征进行交互。
最终交互的目标特征
F
b
o
x
表示为:
其中
F
u
′
的计算在公式
10
中详细说明。
在RIS分支中,我们通过利用REC和RIS分支在
F
i
m
g
上的结果,应用了背景抑制和前景增强的概念。
首先,
P
b
c
通过四舍五入转换为左上角和右下角格式,如下所示:
其中
⌊
∗
⌋
表示下取整函数,
⌈
∗
⌉
表示上取整函数。
NLS生成一个与
F
i
m
g
维度相同的权重掩码
W
b
,计算方法如下:
其中
∀
x
i
∈
[
0
,
w
]
和
∀
y
j
∈
[
0
,
h
]
。
w
1
分别设置为默认值0.1。
然后,我们将Sigmoid函数应用于RSP阶段预测的掩码,以生成加权掩码
W
s
=
σ
(
P
s
c
)
。
将权重
W
b
和
W
s
应用于
F
i
m
g
,以获得受边界框和掩码约束的特征
F
u
:
接下来,一个多层感知器(MLP)将通道维度从
3
×
C
降低回原始的
C
,产生融合的图像表示
F
u
′
,其中包含了RSP阶段的预测结果。
此过程隐式地为RCI阶段提供了源自检测和分割预测的先验空间注意力信息。
如图
5
所示,两只猫的存在导致了不同的注意力预测,从而导致在RSP阶段对边界框预测的次优调整。
MIM通过对图像空间内高响应区域施加约束来缓解这个问题,从而减少模型对无关目标的关注,并实现更精确的目标识别。
此外,融合的图像表示与文本交互,然后通过一个多头自注意力(MSA)层来进一步学习一致的语义关联。
此过程表示如下:
为了补充MIM在多任务输出中促进的隐式交互,我们提出了一种显式的双向一致性约束损失,记为
ℒ
b
c
c
。
首先,
ℒ
m
2
b
旨在强制分割掩码包含在预测的边界框内:
其中
p
i
,
j
s
表示应用sigmoid函数后预测分割掩码的像素值,
∀
i
∈
[
0
,
w
]
和
∀
j
∈
[
0
,
h
]
。
t
设置为0.5。
P
b
表示边界框预测。
其次,损失项
ℒ
b
2
m
定义如下:
其中
P
b
s
表示包围分割掩码
M
s
的最小边界框,
P
b
表示预测的边界框。
此损失使用交并比(IoU)度量进行量化,该度量衡量从分割掩码导出的边界框与预测边界框之间的重叠程度。
它确保预测的边界框尽可能全面地包含分割掩码。
最后,整体一致性约束损失定义为
ℒ
b
c
c
=
λ
1
ℒ
b
2
m
+
λ
2
ℒ
m
2
b
,权重系数
λ
1
和
λ
2
分别设置为1和3。
训练目标
多任务视觉接地的主要优化损失包括两个主要组成部分:REC和RIS,其定义如下:
其中权重因子
σ
l
1
和
σ
g
i
o
u
分别设置为0.5和0.2,而
σ
d
i
c
e
和
σ
b
c
e
默认都设置为1.0。
ℒ
r
e
c
和
ℒ
r
i
s
都包含两阶段组件,并通过双向一致性约束损失
ℒ
b
c
c
进行增强。
总损失公式如下:
其中
λ
r
e
c
、
λ
b
c
c
和
λ
c
分别设置为0.5、0.1和0.3。
这里,
ℒ
r
e
c
c
表示RSP阶段的REC损失,而
ℒ
r
i
s
f
对应于RCI阶段的RIS损失。
实验
实验设置
我们在RefCOCO
(Yu et al. 2016)
、RefCOCO+和RefCOCOg
(Nagaraja, Morariu, and Davis 2016)
数据集上评估了所提出的模型。
最大句子长度设置为20。
图像大小调整为
320
×
320
。
基于先前的工作
(Zhu et al. 2022)
,采用mIoU和[email protected](消融研究中的Acc(REC))来评估方法的性能。
我们使用批量大小为16的训练模型进行了30个轮次的训练。
采用Adam
(Kingma and Ba 2014)
作为我们的优化器。
所有实验都在配备双NVIDIA 4090 GPU的系统上进行。
更多细节将在补充材料中提供。