专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

CLIP4IDC：用于图像差异描述的CLIP

FightingCV · 公众号 · · 2024-12-30 09:05

正文

摘要

图像差异描述 (IDC) 旨在生成句子来描述两张外观相似的图像之间的差异。常规方法使用预训练的（通常是冻结的）视觉特征提取器来学习 IDC 模型。因此，可能会出现两个主要问题：(1) 用于训练这种视觉编码器的预训练数据集与下游 IDC 任务的数据集之间通常存在较大的领域差异；(2) 当分别编码两幅图像时，视觉特征提取器通常无法有效地编码两幅图像之间的视觉变化。由于最近提出的 CLIP 具有优异的零样本性能，我们因此提出 CLIP4IDC，将 CLIP 模型迁移到 IDC 任务以解决这些问题。与直接微调 CLIP 来生成句子不同，我们引入了一个适应性训练过程，以使 CLIP 的视觉编码器能够根据文本描述来捕获和对齐图像对中的差异。在三个 IDC 基准数据集 CLEVR-Change、Spot-the-Diff 和 Image-Editing-Request 上的实验结果证明了 CLIP4IDC 的有效性。

1 引言

涉及理解和表达视觉内容的任务对于机器来说很难，因为对视觉和文本领域之间关系的建模需要复杂的计算推理。作为其中一项任务，图像描述 (IC) (Vinyals et al., 2015; Xu et al., 2015) 旨在根据给定图像生成连贯的描述。从图像描述扩展而来，图像差异描述 (IDC) (Jhamtani and Berg-Kirkpatrick, 2018; Park et al., 2019) 描述了在两张相似图像中出现细微变化。这更具挑战性，因为机器需要识别图像对中的视觉对象和细微差别。

图 1(a) 显示了 IDC 的一种传统方法。首先，使用预训练模型 (He et al., 2016; Ren et al., 2015) 离线提取图像对的视觉特征。然后，字幕网络生成句子来描述对中的变化。尽管此类方法取得了很大进展 (Park et al., 2019; Kim et al., 2021; Huang et al., 2021; Hosseinzadeh and Wang, 2021; Sun et al., 2022) ，但它们仍然存在这样一个问题：视觉特征并未考虑预训练和 IDC 任务之间的领域差距。 Lei et al. (2021) 证明，在原始任务上训练的特征提取器的目标与后续任务的目标之间存在差距。例如，在图像分类任务上训练的模型提取的特征侧重于高级上下文，而丢失了 IDC 所需的细粒度信息。此外，单模态提取的视觉表示与文本表示不相关。

作为一种有效的方法来解决这些缺点，在目标数据集上微调模型可以缩小任务之间的差距。 Yao et al. (2022) 表明，在相同离线提取特征上进行预训练和微调的 Transformer 模型 Vaswani et al. (2017) 在 IDC 中取得了最先进的结果。但是，它尚未充分利用大规模数据集中的知识，如同最近在视觉语言 (VL) 预训练 Zhou et al. (2020); Li et al. (2021) (VLP) 中的进展一样。特别是，CLIP Radford et al. (2021) ，一种对比式 VLP 模型，已在许多 VL 下游任务中展现了其零样本优势 Luo et al. (2021); Tang et al. (2021) 。

我们着手尝试在 IDC 任务上使用典型的 CLIP 微调策略，如图 1(b) 所示，其中 CLIP 的视觉编码器在原始像素上进行学习和微调。但是，差距仍然存在，不仅存在于 CLIP 预训练和 IDC 的目标之间，也存在于预训练的收集的图像文本对和 IDC 中的图像差异对之间。这些差距阻碍了模型对 IDC 任务的适应。

为了解决这些问题，我们研究如何有效地迁移预训练的CLIP用于图像差异检测（IDC）。所提出的CLIP4IDC模型概述如图 2 所示。与直接针对IDC任务微调CLIP相比，CLIP4IDC采用“ 自适应和微调 ”策略。为了自适应，CLIP编码器学习捕捉图像对中细微的差异，而不是仅仅分别为这两张图像生成高级语义信息。在此阶段，图像对和句子的视觉和文本表示通过检索损失学习对齐。为了微调，学习到的视觉编码器之后是一个从头开始训练的字幕Transformer。

在合成和真实基准数据集CLEVR-Change Park et al. (2019) 和Spot-the-Diff Jhamtani and Berg-Kirkpatrick (2018) 上进行了大量的实验。此外，还在Image-Editing-Request Tan et al. (2019) （一个混合的真实-合成数据集）上报告了结果。在这三个数据集的所有指标上，CLIP4IDC都优于强大的基线。这项工作的主要贡献是：

1）与在预提取特征上训练的传统方法相比，我们在原始像素上针对IDC微调CLIP。这保留了预训练特征的表现力，并使其适应新的任务领域。

2）我们提出了CLIP4IDC，它包含自适应和微调阶段，以缩小预训练CLIP和针对IDC微调它时的目标和数据域之间的差距。自适应是通过相互检索视觉差异和描述来学习的。

3）大量的实验表明，在三个数据集上，CLIP4IDC在IDC任务的所有指标上都优于多个强大的基线。 ¹

2 CLIP4IDC

如图 1(a) 所示，规范的IDC方法基于预提取的特征生成句子。其瓶颈在于三个方面：1）特征提取中的梯度流停止；2）预训练和IDC微调之间的目标和数据域不匹配；3）视觉特征“纯粹是视觉的”，即它们存在于视觉域中，远离文本域。在接下来的部分中，我们将介绍CLIP4IDC，这是一种基于CLIP的方法，用于解决这些瓶颈。

图2： CLIP4IDC的详细架构。

2.1 CLIP微调方法

图 1(b) 展示了用于IDC的CLIP端到端微调方法。具体来说，图像表示由使用CLIP Dosovitskiy et al. (2020) 初始化的视觉编码器生成，并馈入Transformer编码器以专注于解释图像对的差异。应用Transformer解码器来描述给定视觉上下文的变化。

2.2 模型架构

图 2 描绘了CLIP4IDC模型，其中包含视觉和语言编码器。

语言编码器。给定文本标题 T ，使用包含 N G 个Transformer层的语言编码器 G ，表示为：

其中 E ∗ ∈ ℝ d T 是每个符元的线性投影， p T ∈ ℝ ( m + 2 ) × d T 是学习到的位置嵌入，用于保留位置信息。 E b o s 和 E e o s 是表示文本开头和结尾的符元嵌入。语言编码器的输出 g ∈ ℝ d T 是通过收集符元嵌入的输出 E e o s 生成的。

视觉编码器。图像对中 ( X 1 , X 2 ) 的每一幅图像都使用CLIP的初始卷积层将其分割成 n 个图像块，其维度为 d I ，表示为：

其中 x c l s 是学习到的类别嵌入，用于表示图像的全局上下文和位置嵌入 p I ∈ ℝ ( n + 1 ) × d I 。 { ⋯ } 是嵌入的序列。视觉编码器 F 旨在捕获图像对中的细微变化。 F 由CLIP的权重初始化，并由内部和外部 Transformer模块组成。具体来说，内部模块 F i n t r a 包含 N i n t r a 个Transformer层，学习图像对的单模态上下文。外部模块 F i n t e r 包含 N i n t e r 层，旨在关注每一对上下文之间的细微差异。这些过程表示为：

其中 p ∈ ℝ 2 ( n + 1 ) × d I 。 e 1 和 e 2 ∈ ℝ d I 是表示第一张和第二张图像的特殊符元嵌入。之后，将可学习的线性投影 W ∈ ℝ d I × d T 应用于视觉表示 F ( X 1 , X 2 ) ，从而生成最终的视觉表示 F ′ ( X 1 , X 2 ) 。

2.3 IDC 特定适应

接下来，我们提出了两个新颖的IDC特定预训练任务，即图像对到文本(IP-T)和文本到图像对(T-IP)检索，以更好地适应字幕的视觉表示。

在对实际IDC任务进行CLIP微调之前，我们通过IP-T和T-IP检索将视觉特征适应到IDC任务的领域。我们的适应方法遵循对比方法，其中编码的图像对被拉近到编码的差异描述。虽然存在其他类型的适应策略，例如更侧重于匹配领域分布的策略 Tzeng et al. (2014) ，但我们只关注于验证添加这样的适应步骤是否有用。我们从它们的 x c l s 嵌入中聚合图像对的组合视觉表示 v ∈ ℝ d T ，表示为：

其中 f 是平均池化操作。下标是表示中嵌入的位置（从1开始索引）。给定一个批次中的 B 图像对和差异描述，目标是匹配图像对的差异表示和差异描述之间的 B × B 相似性。损失函数定义为：

其中 ℒ i 2 t 和 ℒ t 2 i 分别是IP-T和T-IP检索的损失函数。 s ( ⋅ , ⋅ ) 表示余弦相似度函数， τ 是一个可学习的温度参数，用于平滑梯度。

2.4 字幕生成

在实际的字幕生成阶段，视觉编码器使用从之前的适应阶段获得的权重进行初始化，并将视觉编码器的输出 F ′ ( X 1 , X 2 ) 馈送到字幕生成模型。如图 2 所示，字幕生成模型分别包含用于视觉和文本表示的多层Transformer编码器和解码器。解码器经过训练，可以根据之前的真实单词和视觉差异预测下一个符元。使用与 Park et al. (2019) 相同的词级交叉熵 (XE) 损失。

3 实验

3.1 基准数据集和指标

我们在CLEVR-Change Park等人 (2019) 、Spot-the-Diff Jhamtani和Berg-Kirkpatrick (2018) 和Image-Editing-Request Tan等人 (2019) 数据集上进行了实验。沿袭先前的工作，例如 Huang等人 (2021); Hosseinzadeh和Wang (2021) ，字幕模型在BLEU (B) Papineni等人 (2002) 、METEOR (M) Banerjee和Lavie (2005) 、CIDEr-D (C) Vedantam等人 (2015) 和ROUGE-L (R) Lin (2004) 上对测试集进行了评估。 IDC自适应是通过图像对到文本 (IP-T) 和文本到图像对 (T-IP) 检索任务完成的。报告了标准的检索指标：排名K的召回率 (R@K)、中位排名 (MdR) 和平均排名 (MnR)。

Model	Input	PT	B	M	C	R
Capt-Dual-Att (2019)	ResNet	–	43.5	32.7	108.5	–
DUDA (2019)	ResNet	–	47.3	33.9	112.0	–
VAM (2020)	ResNet	–	50.3	37.0	114.9	69.7
VAM+ (2020)	ResNet	–	51.3	37.8	115.8	70.4
IFDC (2021)	F-RCNN	–	49.2	32.5	118.7	69.1
DUDA+Aux (2021)	ResNet	–	51.2	37.7	115.4	70.5
VACC (2021)	ResNet	–	52.4	37.5	114.2	–
BiDiff (2022)	ResNet	–	54.2	38.3	118.1	–
IDC-PCL (2022)	ResNet	✓	51.2	36.2	128.9	71.7
CLIP4IDC	Raw	✓	56.9	38.4	150.7	76.4
CC-Full (2022)	Raw,ResNet	✓	64.3	36.4	151.4	77.1

表1： CLEVR-Change测试集上IDC的结果。主要指标CIDer已突出显示。 CC-Full位于一个单独的组中，因为它直接采用针对目标指标优化的策略梯度方法。

3.2 字幕结果

我们在表 1 – 4 中将CLIP4IDC与直接CLIP微调方法和采用预提取特征的现有技术进行了比较。

CLEVR-Change上的结果。表 1 显示，在CIDEr方面，CLIP4IDC优于所有基线，除了CC-Full Ak等人 (2022) 。请注意，CC-Full采用策略梯度方法，并直接针对生成目标字幕进行了优化，而我们提出的CLIP4IDC仅依赖于标准XE字幕损失。因此，我们认为它们的结果不可比较，但是，我们的结果仍然相当有竞争力。正如我们将在后面的章节中看到的，CLIP4IDC在真实世界的数据集上显著优于CC-Full。

Model	C	T	M	A	D	DI
DUDA (2019)	120.4	86.7	56.4	108.2	103.4	110.8
VAM+ (2020)	122.1	98.7	82.0	126.3	115.8	122.6
IFDC (2021)	133.2	99.1	82.1	128.2	118.5	114.2
DUDA+Aux (2021)	120.8	89.9	62.1	119.8	123.4	116.3
BiDiff (2022)	115.9	106.8	71.8	121.3	124.9	116.1
IDC-PCL (2022)	131.2	101.1	81.7	133.3	116.5	145.0
CLIP4IDC	149.1	135.3	91.0	132.4	135.5	133.4

表2： CLEVR-Change测试集分割上不同类型变化的CIDEr得分细分。 C、T、M、A、D、DI列分别代表颜色、纹理、移动、添加、删除和干扰项的变化类型，即图像对中没有变化。

Model	Input	PT	B	M	C	R
DDLA (2018)	ResNet	–	8.5	12.0	32.8	28.6
DUDA (2019)	ResNet	–	8.1	11.5	34.0	28.3
VAM (2020)	ResNet	–	10.1	12.4	38.1	31.3
IFDC (2021)	F-RCNN	–	8.7	11.7	37.0	30.2
DUDA+Aux (2021)	ResNet	–	8.1	12.5	34.5	29.9
VACC (2021)	ResNet	–	9.7	12.6	41.5	32.1
CLIP4IDC	Raw	✓	11.6	14.2	47.4	35.0
CC-Full (2022)	Raw,ResNet	✓	8.3	13.0	33.0	30.0

表3： IDC在Spot-the-Diff测试集分割上的结果。

Model	Input	PT	B	M	C	R
Rel-Att (2019)	ResNet	–	6.7	12.8	26.4	37.4
DUDA (2019)	ResNet	–	6.5	12.4	22.8	37.3
BiDiff (2022)	ResNet	–	6.9	14.6	27.7	38.5
CLIP4IDC	Raw	✓	8.2	14.6	32.2	40.4

表4：图像编辑请求测试集分割上的结果。

Model	ℒ	Params	B	M	C	R	B	M	C	R
			CLEVR-Change				Spot-the-Diff
CLIP-FT	–	135.57M	49.9	34.8	133.9	70.8	11.0	12.8	43.3	33.5
CLIP4IDC	–	135.65M	54.2	37.9	147.5	75.4	11.0	12.9	43.0	33.4
CLIP4IDC	✓	135.65M	56.9	38.4	150.7	76.4	11.6	14.2	47.4	35.0

表5： IDC在两个数据集上的消融结果。

我们还在CLEVR-Change上根据不同类型的变化评估模型，如表 2 所示。在颜色、纹理、移动和删除类型上，CLIP4IDC优于IDC-PCL。

Spot-the-Diff和图像编辑请求的结果。表 3 和 4 显示，在两个真实数据集上，CLIP4IDC在所有指标上都比基线实现了更高的准确率。

消融实验。我们对不同的CLIP架构和适应策略进行了消融研究。表 5 显示，没有适应阶段的CLIP4IDC（公式 8 中没有 ℒ ）在CLEVR-Change上优于直接CLIP微调（“CLIP-FT”）。在更具挑战性的真实世界数据集Spot-the-Diff上，我们观察到了相同的趋势。具有 ℒ 的适应阶段因此进一步提高了性能。这证实了在适应阶段学习捕捉更细粒度的视觉差异是有益的。

	CLEVR-Change						Spot-the-Diff						Editing-Request
	Image Pair ⇔ Text			Text ⇔ Image Pair			Image Pair ⇔ Text			Text ⇔ Image Pair			Image Pair ⇔ Text			Text ⇔ Image Pair
Model	R@1	R@5	R@10	R@1	R@5	R@10	R@10	R@20	R@50	R@10	R@20	R@50	R@1	R@5	R@10	R@1	R@5	R@10
CLIP4IDC	46.4	83.0	86.6	26.8	58.7	70.0	3.7	7.3	16.8	6.2	10.5	20.0	17.1	28.4	33.8	17.3