涉及理解和表达视觉内容的任务对于机器来说很难,因为对视觉和文本领域之间关系的建模需要复杂的计算推理。 作为其中一项任务,图像描述 (IC)
(Vinyals et al., 2015; Xu et al., 2015)
旨在根据给定图像生成连贯的描述。 从图像描述扩展而来,图像差异描述 (IDC)
(Jhamtani and Berg-Kirkpatrick, 2018; Park et al., 2019)
描述了在两张相似图像中出现细微变化。 这更具挑战性,因为机器需要识别图像对中的视觉对象和细微差别。
(a)
使用冻结 (CNN) 特征提取器的微调策略。
(b)
CLIP 的微调策略,其中图像编码器也进行了微调。
图1:
不同的传统微调 (FT) 策略可能由于以下原因导致任务准确性差:(1) 未考虑预训练 (PT) 和 FT 中不同目标引入的差距,以及 (2) PT 和 FT 中使用的数据集的领域差异。
图
1(a)
显示了 IDC 的一种传统方法。 首先,使用预训练模型
(He et al., 2016; Ren et al., 2015)
离线提取图像对的视觉特征。 然后,字幕网络生成句子来描述对中的变化。 尽管此类方法取得了很大进展
(Park et al., 2019; Kim et al., 2021; Huang et al., 2021; Hosseinzadeh and Wang, 2021; Sun et al., 2022)
,但它们仍然存在这样一个问题:视觉特征并未考虑预训练和 IDC 任务之间的领域差距。
Lei et al. (2021)
证明,在原始任务上训练的特征提取器的目标与后续任务的目标之间存在差距。 例如,在图像分类任务上训练的模型提取的特征侧重于高级上下文,而丢失了 IDC 所需的细粒度信息。 此外,单模态提取的视觉表示与文本表示不相关。
作为一种有效的方法来解决这些缺点,在目标数据集上微调模型可以缩小任务之间的差距。
Yao et al. (2022)
表明,在相同离线提取特征上进行预训练和微调的 Transformer 模型
Vaswani et al. (2017)
在 IDC 中取得了最先进的结果。 但是,它尚未充分利用大规模数据集中的知识,如同最近在视觉语言 (VL) 预训练
Zhou et al. (2020); Li et al. (2021)
(VLP) 中的进展一样。 特别是,CLIP
Radford et al. (2021)
,一种对比式 VLP 模型,已在许多 VL 下游任务中展现了其零样本优势
Luo et al. (2021); Tang et al. (2021)
。
在合成和真实基准数据集CLEVR-Change
Park et al. (2019)
和Spot-the-Diff
Jhamtani and Berg-Kirkpatrick (2018)
上进行了大量的实验。 此外,还在Image-Editing-Request
Tan et al. (2019)
(一个混合的真实-合成数据集)上报告了结果。 在这三个数据集的所有指标上,CLIP4IDC都优于强大的基线。 这项工作的主要贡献是:
图
1(b)
展示了用于IDC的CLIP端到端微调方法。 具体来说,图像表示由使用CLIP
Dosovitskiy et al. (2020)
初始化的视觉编码器生成,并馈入Transformer编码器以专注于解释图像对的差异。 应用Transformer解码器来描述给定视觉上下文的变化。
2.2
模型架构
图
2
描绘了CLIP4IDC模型,其中包含视觉和语言编码器。
语言编码器。
给定文本标题
T
,使用包含
N
G
个Transformer层的语言编码器
G
,表示为:
其中
E
∗
∈
ℝ
d
T
是每个符元的线性投影,
p
T
∈
ℝ
(
m
+
2
)
×
d
T
是学习到的位置嵌入,用于保留位置信息。
E
b
o
s
和
E
e
o
s
是表示文本开头和结尾的符元嵌入。 语言编码器的输出
g
∈
ℝ
d
T
是通过收集符元嵌入的输出
E
e
o
s
生成的。
视觉编码器。
图像对中
(
X
1
,
X
2
)
的每一幅图像都使用CLIP的初始卷积层将其分割成
n
个图像块,其维度为
d
I
,表示为:
其中
x
c
l
s
是学习到的类别嵌入,用于表示图像的全局上下文和位置嵌入
p
I
∈
ℝ
(
n
+
1
)
×
d
I
。
{
⋯
}
是嵌入的序列。 视觉编码器
F
旨在捕获图像对中的细微变化。
F
由CLIP的权重初始化,并由
内部
和
外部
Transformer模块组成。 具体来说,
内部
模块
F
i
n
t
r
a
包含
N
i
n
t
r
a
个Transformer层,学习图像对的单模态上下文。
外部
模块
F
i
n
t
e
r
包含
N
i
n
t
e
r
层,旨在关注每一对上下文之间的细微差异。 这些过程表示为:
其中
p
∈
ℝ
2
(
n
+
1
)
×
d
I
。
e
1
和
e
2
∈
ℝ
d
I
是表示第一张和第二张图像的特殊符元嵌入。 之后,将可学习的线性投影
W
∈
ℝ
d
I
×
d
T
应用于视觉表示
F
(
X
1
,
X
2
)
,从而生成最终的视觉表示
F
′
(
X
1
,
X
2
)
。
在对实际IDC任务进行CLIP微调之前,我们通过IP-T和T-IP检索将视觉特征适应到IDC任务的领域。 我们的适应方法遵循对比方法,其中编码的图像对被拉近到编码的差异描述。 虽然存在其他类型的适应策略,例如更侧重于匹配领域分布的策略
Tzeng et al. (2014)
,但我们只关注于验证添加这样的适应步骤是否有用。 我们从它们的
x
c
l
s
嵌入中聚合图像对的组合视觉表示
v
∈
ℝ
d
T
,表示为:
其中
f
是平均池化操作。 下标是表示中嵌入的位置(从1开始索引)。 给定一个批次中的
B
图像对和差异描述,目标是匹配图像对的差异表示和差异描述之间的
B
×
B
相似性。 损失函数定义为:
其中
ℒ
i
2
t
和
ℒ
t
2
i
分别是IP-T和T-IP检索的损失函数。
s
(
⋅
,
⋅
)
表示余弦相似度函数,
τ
是一个可学习的温度参数,用于平滑梯度。
2.4
字幕生成
在实际的字幕生成阶段,视觉编码器使用从之前的适应阶段获得的权重进行初始化,并将视觉编码器的输出
F
′
(
X
1
,
X
2
)
馈送到字幕生成模型。 如图
2
所示,字幕生成模型分别包含用于视觉和文本表示的多层Transformer编码器和解码器。 解码器经过训练,可以根据之前的真实单词和视觉差异预测下一个符元。 使用与
Park et al. (2019)
相同的词级交叉熵 (XE) 损失。