专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

通过持续语言学习拥抱CLIP中的语言包容性和多样性

FightingCV · 公众号 · · 2025-01-01 09:00

正文

摘要

近年来，视觉语言预训练模型 (VL-PTMs) 推动了多模态研究的发展，但它们在英语等少数几种语言中的熟练程度限制了其在更广泛社区中的适用性。为此，人们越来越关注通过联合学习设置开发多语言 VL 模型，然而，由于成本高昂和数据可用性问题，这可能并不现实。在这项工作中，我们建议通过持续语言学习 (CLL) 来扩展 VL-PTMs 的语言能力，其中模型需要增量更新其语言知识，而不会遭受灾难性遗忘 (CF)。我们首先介绍一个名为 CLL-CLIP 的模型，该模型建立在 CLIP 的基础上，CLIP 是一种流行的 VL-PTM，已经获得了图像-英语文本对齐能力。具体来说，CLL-CLIP 包含一个可扩展的符元嵌入层来处理语言差异。它仅训练符元嵌入以提高内存稳定性，并在跨模态和跨语言目标下进行优化，以学习图像和多语言文本之间的对齐。为了减轻由协变量偏移和词汇重叠引起的 CF，我们进一步提出了一种新方法，该方法确保在初始化期间所有符元嵌入的分布相同，并在训练期间规范化符元嵌入学习。我们基于 MSCOCO 和 XM3600 数据集构建了一个涵盖 36 种语言的 CLL 基准，然后评估多语言图像-文本检索性能。广泛的实验验证了 CLL-CLIP 的有效性，并表明我们的方法可以提升 CLL-CLIP，例如，在 XM3600 上文本到图像平均 Recall@1 提高了 6.7%，并且始终如一地改进了各种最先进的方法。我们的代码和数据可在 https://github.com/yangbang18/CLFM 获取。

引言

图 1：针对持续语言学习，NLP 中之前的研究工作 (Garcia et al. 2021; Huang et al. 2022) 训练完整的模型参数以学习新的语言，其中新的符元嵌入是随机初始化的，没有考虑先前符元分布。我们的工作只需要训练最少的组件（即符元嵌入层），并针对符元嵌入的初始化和正则化来避免灾难性遗忘。请注意，为了清晰起见，我们没有绘制冻结的视觉预训练模型 (PTM)。

大规模视觉语言预训练模型 (VL-PTM)，例如 CLIP (Radford et al. 2021) 、Flamingo (Alayrac et al. 2022) 和 BLIP-2 (Li et al. 2023a) ，在多模态研究中取得了长足的进步 (Gan et al. 2022; Chen et al. 2023a) 。然而，目前的大多数文献都偏向于少数几种语言，主要是英语，这阻碍了 VL-PTM 在不同语言社区的广泛采用和普及。考虑到世界上大约有 7000 种语言，努力在 VL-PTM 中实现更大的语言包容性和多样性是必不可少的。

为了赋予 VL-PTM 理解多语言语境的能力，人们越来越关注通过联合学习的设置来开发多语言 VL-PTM (Zhou et al. 2021; Zhang, Hu, and Jin 2022; Chen et al. 2023b; Li et al. 2023b) ，这在多语言图像文本检索等任务中表现出显著的性能。然而，联合学习存在两个关键问题。一个是学习新知识的计算成本高且缺乏灵活性，因为我们需要在所有先前数据的基础上对新数据重新训练模型。另一个问题是由于隐私和其他因素，在学习周期中并不总是有数据可用。或者， 持续语言学习 (CLL)，也称为 终身语言学习 ，是一种更实用的方法，可以低成本、高灵活地扩展 PTM 的语言能力。 CLL 的目标是将多语言性能整合到单个参数和内存受限的模型中，确保该模型能够在 非平稳 数据流下发展，而不会遭受 灾难性遗忘 (McCloskey and Cohen 1989) 。虽然 CLL 已在自然语言处理 (NLP) 中得到广泛研究 (Biesialska, Biesialska, and Costa-jussà 2020; Escolano, Costa-Jussà, and Fonollosa 2021; Zhang et al. 2022; M’hamdi, Ren, and May 2023) ，但将 VL-PTM 与 CLL 有效整合仍未得到充分探索，并且它提出了独特的挑战，例如利用视觉信息来辅助语言学习。

在本文中，我们研究了 CLL 设置下 VL-PTM 的多语言习得。我们首先选择 CLIP (Radford et al. 2021) ，这是一个流行的 VL-PTM，可以将图像和英语文本关联到相同的潜在空间，作为我们的骨干模型。接下来，我们提出了一个名为 CLL-CLIP 的模型，用于增量学习新语言。特别地，我们的模型包含一个可扩展的符元嵌入层来处理语言差异。这种设计对于防止我们的模型遇到高比例的 超出词汇表 符元至关重要。在训练期间，CLL-CLIP 保持所有预训练组件冻结，除了它的符元嵌入层，以保留先前获得的知识，并在跨模态和跨语言目标下进行优化，以学习图像和多语言文本之间的对齐。

接下来，我们提出一种针对符元嵌入初始化和正则化 (TEIR) 的 CLL 方法，以减轻灾难性遗忘 (CF)。图 1 将我们的 TEIR 与 NLP 中先前的方法区分开来 (Garcia et al. 2021; Huang et al. 2022) 。特别地，为了减少由 协变量偏移 (Shimodaira 2000; Ioffe and Szegedy 2015) 引起的 CF，我们的方法确保了初始化过程中所有符元嵌入的 相同分布 。为了减轻由 词汇重叠 (Pfeiffer et al. 2021) 引起的 CF，我们的方法基于符元在 CLL-CLIP 已学习的任务中出现的次数来规范化符元嵌入学习。我们的观点是，如果一个符元在先前学习的任务中很常见，则应该对其嵌入更新进行惩罚，以避免任务干扰。

为了评估我们的 CLL-CLIP 模型和 TEIR 方法的有效性，我们首先基于 MSCOCO (Chen et al. 2015) 和 XM3600 (Thapliyal et al. 2022) 数据集构建了一个涵盖 36 种语言的基准。然后，我们基于我们的 CLL-CLIP 模型在这个基准上重现了各种最先进的 (SOTA) 持续学习和参数高效微调方法。广泛的实验验证了 CLL-CLIP 的有效性，并表明 TEIR 可以提升 CLL-CLIP，例如，在 XM3600 上文本到图像平均召回率@1 提高 6.7%，并持续提高 SOTA 方法的性能。

我们的主要贡献如下。 (1) 据我们所知，我们提出了第一个关于通过持续语言学习增强双流 VL-PTM 语言能力的系统性研究。 (2) 我们为此项具有挑战性的设置设计了一个名为 CLL-CLIP 的模型，并引入了一种名为 TEIR 的新方法，该方法强调了符元嵌入的初始化和正则化，以减轻灾难性遗忘。 (3) 我们构建了一个 CLL 基准，用于评估跨 36 种语言的图像文本检索。广泛的实验验证了我们 CLL-CLIP 和 TEIR 的有效性，并证明了 TEIR 在各种 SOTA 方法上的通用性。

方法

在我们持续语言学习 (CLL) 的设置中，模型需要顺序学习 T 个任务，每个任务都有其对应的训练数据集 D t ⁢ ( t ∈ [ 1 , T ] ) ，涵盖不重叠的语言子集。在使用 ϕ t 参数化的模型对 D t 进行训练后，CLL 的目标是确保模型能够在之前的 t 任务中表现良好。为了实现这一点，我们提出了 CLL-CLIP 和 TEIR，如下所述。

CLL剪辑

架构

如图 2 (a)所示，我们的模型基于CLIP构建，避免了从头开始训练，并包含一个由 𝜽 t 参数化的可扩展符元嵌入层来将多语言文本向量化。特别地，CLIP由一个视觉编码器、一个文本编码器和一个主要用于英语的符元嵌入层组成。 ¹ . 分别将它们的参数表示为 𝛀 v ⁢ e 、 𝛀 t ⁢ e 和 𝛀 e ⁢ m ⁢ b 。那么，我们在第 t 个任务时的模型参数为 ϕ t = { 𝛀 v ⁢ e , 𝛀 t ⁢ e , 𝛀 e ⁢ m ⁢ b , 𝜽 t } ，其中在推理过程中可以丢弃 𝛀 e ⁢ m ⁢ b 。我们保持所有CLIP参数 𝛀 * 不变，只训练 𝜽 t 。这种选择与高效VL预训练的研究结果一致 (Zhai et al. 2022; Zhang, Hu, and Jin 2022) ，也有利于在持续学习过程中保留先前获得的知识 (Wang et al. 2022b; Smith et al. 2023) 。

词汇替换

将对应于 𝜽 t 的词汇表示为 𝒱 t 。训练前， 𝒱 0 与CLIP的词汇相同， 𝜽 0 = 𝛀 e ⁢ m ⁢ b 。对于 t ∈ [ 1 , T ] ，需要动态更新 𝒱 t 以适应新语言的词汇。因此，我们首先采用与CLIP相同的BPE过程 (Sennrich, Haddow, and Birch 2016) 从 D t 构建词汇 𝒱 ^ t ，然后按照 (Garcia et al. 2021) 通过合并 𝒱 t − 1 和 𝒱 ^ t 来获得 𝒱 t ，即 𝒱 t = 𝒱 t − 1 ∪ 𝒱 ^ t 。需要注意两个问题：（1） 𝒱 ^ t ∖ 𝒱 t − 1 （仅存在于 𝒱 ^ t 中的新符元）的嵌入初始化，以及（2）由于缺乏全面的文本统计数据而导致 𝒱 t 次优的特性。我们将在TEIR中解决（1），并在后续实验中讨论（2）。

训练目标

我们CLL-CLIP的每个训练样本都是一个三元组 x = ( x I , x E , x F ) ，其中包括一个图像 x I 、一段母语 x E （即英语文本）文本和一段外语文本 x F 。在第 t 个任务中，我们如下获得三元组 x 的全局表示：

其中 g ⁢ ( ⋅ ) 表示前馈变换。我们建议使用跨模态和跨语言目标训练CLL-CLIP，即 ℒ cm 和 ℒ cl ，以便CLL-CLIP可以基于已获得的知识（即 𝒓 I 和 𝒓 E 之间的对齐）将 𝒓 I 与 𝒓 F 关联起来。遵循CLIP，我们将 ℒ cm 实现为基于InfoNCE的图像-文本对比 (van den Oord, Li, and Vinyals 2018) ：

其中 K 表示批大小， ⟨ ⋅ , ⋅ ⟩ 表示余弦相似度， τ 表示温度超参数。受 (Reimers and Gurevych 2020) 的启发，我们将 ℒ cl 实现为配对文本特征之间的均方误差：

其中 | | ⋅ | | 2 表示L2范数。 CLL-CLIP的整体训练目标可以表述如下：

其中 γ * 是平衡两个损失的超参数。

TEIR

如图 2 (b)所示，TEIR的关键在于我们如何区别对待 𝒱 t , o ⁢ l ⁢ d = 𝒱 t − 1 ∖ 𝒱 ^ t 、 𝒱 t , ∩ = 𝒱 t − 1 ∩ 𝒱 ^ t 和 𝒱 t , n ⁢ e ⁢ w = 𝒱 ^ t ∖ 𝒱 t − 1 以减轻灾难性遗忘(CF)。

初始化

基于Transformer (Vaswani et al. 2017) 构建的语言模型通常使用均值为零( μ = 0 )和预定义方差 σ 2 的高斯分布 𝒩 ⁢ ( μ , σ 2 ) 来初始化符元嵌入。令在 D t 上训练后CLL-CLIP的符元嵌入表示为 𝜽 t * 。假设 𝜽 t − 1 * ∼ 𝒩 ⁢ ( μ t − 1 , σ t − 1 2 ) ，现在的重点是如何正确初始化 𝜽 t 。遵循 (Garcia et al. 2021) ， 𝜽 t 继承自 𝜽 t − 1 * 中 𝒱 t − 1 的预训练嵌入，以保留先前获得的语言知识。我们建议不要使用固定的分布 𝒩 ⁢ ( μ , σ 2 ) 初始化 𝒱 t , n ⁢ e ⁢ w 的嵌入，而是建议 μ = μ t − 1 和 σ = σ t − 1 以确保新的和之前的符元嵌入具有 相同的分布 。通过这样做，我们的方法减轻了特征漂移（又名协变量偏移）问题，这是导致概念漂移的一个潜在因素 (Ramasesh, Dyer, and Raghu 2021) 。

正则化

尽管 词汇重叠 有利于迁移学习 (Pfeiffer et al. 2021) ，但在没有约束的情况下学习 𝒱 t , ∩ 的嵌入会对包含词汇重叠符元的先前任务的性能造成干扰。令表示直到第 t 个任务的符元统计量为 𝒄 t ∈ ℝ | 𝒱 t | ，其中 c t , j 是第 j 个符元在先前 t − 1 个任务中出现的次数， c 1 , j 初始化为1。为了克服词汇重叠引起的CF，我们根据符元嵌入 𝜽 t 重新缩放L2权重衰减 β 和梯度 ∇ ℒ ⁢ ( 𝜽 t ) 的速率，如下所示，以标准的具有L2权重衰减的随机梯度下降法(SGD)为例：

其中 α 是学习率， λ t , j 定义为：

对于具有动量的复杂优化器，缩放操作仍然直接应用于 β 和 ∇ ℒ ⁢ ( 𝜽 t ) 。正如公式( 5 )和( 6 )所示，我们保持与第 t 个任务无关的符元嵌入不变，惩罚 𝒱 t , ∩ 的嵌入学习，同时像往常一样更新 𝒱 t , n ⁢ e ⁢ w 的嵌入。此方法避免了任务干扰，并确保了文本特征( 𝒓 F )的有效学习，从而在记忆稳定性和学习可塑性之间取得了更好的平衡。

	MSCOCO 36	XM3600
# Train/Val/Test Images	113,287/5,000/5,000	-/-/3,600
# Languages	1 + 35	36
# Captions per Language	616,767	≈ 7260

表1：数据集统计。 # 表示“数量”。 MSCOCO 36 是通过使用谷歌翻译将MSCOCO的英文标题翻译成XM3600中的其他35种语言获得的，遵循 (Thapliyal et al. 2022) 。

Setting	Model	MSCOCO 36 (In-Domain)				XM3600 (Out-of-Domain)
		Image-to-Text		Text-to-Image		Image-to-Text		Text-to-Image
		AR ( ↑ )	F ( ↓ )	AR ( ↑ )	F ( ↓ )	AR ( ↑ )	F ( ↓ )	AR ( ↑ )	F ( ↓ )
Joint Learning	CLL-CLIP	53.3	-	31.4	-	50.7	-	37.1	-
	M-CLIP (2022)	42.7	-	25.9	-	53.6	-	41.1	-
	PaLI (2023c)	-	-	-	-	36.0	-	28.5	-
Continual Learning	CLL-CLIP	29.6	23.2	15.2	15.6	26.4	23.1	17.6	18.4
	with TEIR	38.3 (+8.7)	14.7 (+8.5)	20.5 (+5.3)	10.5 (+5.1)	35.0 (+8.6)	15.3 (+7.8)	24.3 (+6.7)	12.5 (+5.9)
	oEWC (2018)	37.0	15.7	19.3	11.3	32.3	17.2	21.8	14.1
	with TEIR	40.2 (+3.2)	12.7 (+3.0)	21.6 (+2.3)	9.3 (+2.0)	36.7 (+4.4)	13.4 (+3.8)	25.6 (+3.8)	11.2 (+2.9)
	ER (2019)	34.1	17.9	17.8	12.3	29.0	20.0	19.4	16.0
	with TEIR	39.3 (+5.2)	12.8 (+5.1)	21.5 (+3.7)	8.8 (+3.5)	35.4 (+6.4)	13.9 (+6.1)	24.7 (+5.3)	11.2 (+4.8)
	DER (2020)	37.6	14.6	19.5	10.6	31.6	17.4	21.0	14.4
	with TEIR	42.7 (+5.1)	9.4 (+5.2)	23.4 (+3.9)	6.9 (+3.7)	38.3 (+6.7)	10.9 (+6.5)	26.7 (+5.7)	9.3 (+5.1)
	MLA † (2022)	35.9	20.9	18.4	15.0	30.7	21.8	20.6	18.1
	with TEIR	46.0 (+10.1)	11.2 (+9.7)	25.2 (+6.8)	8.6 (+6.4)	41.1 (+10.4)	12.3 (+9.5)	29.0 (+8.4)	10.7 (+7.4)
	P-Tuning † (2022)	30.1	23.9	15.0	16.3	24.9	23.9	16.4	19.3
	with TEIR	41.1 (+11.0)	13.3 (+10.6)	22.2 (+7.2)	9.6 (+6.7)	35.5 (+10.6)	13.8 (+10.1)	25.4 (+9.0)	11.5 (+7.8)
	LoRA † (2022)	31.8	22.5	16.2	15.9	28.0	22.7	18.7	18.9
	with TEIR	41.6 (+9.8)	12.9 (+9.6)	22.8 (+6.6)	9.7 (+6.2)	38.0 (+10.0)	13.9 (+8.8)	27.0 (+8.3)	11.7 (+7.2)
	DualPrompt (2022a)	28.4	23.6	14.1	15.8	25.5	22.9	16.4	18.4
	with TEIR	38.3 (+9.9)	14.0 (+9.6)	19.7 (+5.6)	10.6 (+5.2)	35.3 (+9.8)	14.1 (+8.8)	23.6 (+7.2)	12.1 (+6.3)
	CodaPrompt (2023)	28.9	22.6	14.4	15.2	24.6	22.2	15.9	17.6
	with TEIR	41.4 (+12.5)	9.7 (+12.9)	22.3 (+7.9)	7.1 (+8.1)	36.7 (+12.1)	9.3 (+12.9)	25.3 (+9.4)	7.9 (+9.7)

表2： MSCOCO 36 和XM3600上的检索性能。 † ：推理过程中需要任务标识。除PaLI的结果外，所有结果均由我们自己复现。请注意，PaLI并非针对图像文本检索进行了优化，但为完整起见，我们从 (Chen et al. 2023c) 中引用了其结果。方括号中的数字表示我们的方法带来的绝对改进。

实验

实验设置

基准

我们基于 MSCOCO (Chen et al. 2015) 和 XM3600 (Thapliyal et al. 2022) 构建了一个CLL基准，以评估我们提出的方法的有效性。原因如下：(1) MSCOCO是一个流行的视觉语言基准，包含高质量的图像-英语标题对。 (2) XM3600包含36种语言的图像-标题对， ² 这些语言由地理位置多样的人们使用。据我们所知，这个数据集涵盖了最多样的语言。 (3) 多语言视觉语言基准IGLUE (Bugliarello et al. 2022) 在任务类型和语言方面都存在差异，因此很难证明语言差异的影响。如表 1 所示，我们使用Google翻译 ³ 进行数据增强，从而获得一个名为MSCOCO 36 的多语言数据集。我们基于Karpathy分割 (Karpathy and Fei-Fei 2015) 在MSCOCO 36 上训练模型。然后，我们分别报告在MSCOCO 36 和XM3600上的 领域内 和 领域外 结果。

任务和任务顺序

我们将每种语言视为一项任务，因此得到 T = 36 项任务。模型首先在英语任务上进行训练，然后以随机顺序训练其余35项任务。

指标

令 a j , i （ j ≥ i ）表示在第 j 个任务上训练后，第 i 个任务上的Recall@1（信息检索中一个常用的指标）。与持续学习研究 (Wang et al. 2023) 一致，我们计算两个指标：

•

平均召回率： 𝐀𝐑 j = 1 j ⁢ ∑ i = 1 j a j , i ，衡量模型学习能力和记忆稳定性的综合指标。
•

遗忘率： 𝐅 j = 1 j − 1 ⁢ ∑ i = 1 j − 1 max k ∈ [ 1 , j − 1 ] ( a k , i − a j , i ) ，其值越低表示灾难性遗忘越少。

除非另有说明，我们报告最终 𝐀𝐑 T 和 𝐅 T 性能的 百分位数 ，并省略下标。

实现细节

我们遵循 (Zhang, Hu, and Jin 2022; Yang et al. 2023) ，采用CLIP的ViT-B/16变体作为主干网络。我们遵循OpenCLIP (Ilharco et al. 2021) 并将 ℒ cm 的初始温度设置为0.07。我们在公式（ 4 ）中搜索超参数 γ 1 和 γ 2 ，取值范围为 { 1 , 0.1 , 0.01 } ，并根据验证集上的AR指标设置 γ 1 = 0.01 和 γ 2 = 1 。对于没有TEIR的模型，我们使用 𝒩 ⁢ ( 0 , 0.02 2 ) 初始化新的符元嵌入，遵循OpenCLIP并设置 ∀ t , ∀ j , λ t , j = 1 （公式（ 6 ））。对于每个任务，我们将词汇量大小设置为10K。我们使用128个样本的批次和具有0.05 L2权重衰减的AdamW (Loshchilov and Hutter 2019) 来训练模型3个epoch。我们将学习率在预热10%迭代后固定设置为5e-5。选择在当前任务验证集上Recall@{1, 5, 10}总和最高的模型用于下一个任务的训练。我们在单张NVIDIA V100显卡上使用PyTorch进行实验，每个实验运行时间少于20小时。

方法比较

我们复现了以下最先进的持续学习(CL)和参数高效微调(PEFT)方法进行比较：(1) 基于正则化的在线弹性权重整合( oEWC ) (Schwarz et al. 2018) ，它惩罚模型参数的变化；(2) 基于重演的 ER (Chaudhry et al. 2019) ，它存储历史训练样本用于当前任务学习；(3) 基于重演和正则化的 DER (Buzzega et al. 2020) ，它存储先前学习样本的特征用于知识蒸馏；(4) 基于架构的 MLA (Zhang, Hu, and Jin 2022) ， P-Tuning (Liu et al. 2022) 和 LoRA (Hu et al. 2022) ，它们分别将特定任务的适配器 (Houlsby et al. 2019) 、可学习的提示符元和分解矩阵插入到冻结的预训练模型中。 (5) 基于提示的 DualPrompt (Wang et al. 2022a) 和 CodaPrompt (Smith et al. 2023) ，它们依赖于键-查询机制为冻结的预训练模型生成合适的提示。我们使用上述实现细节在CLL-CLIP的文本分支中复现了所有上述方法。

Setting

Initialization

Regularization

Oracle Vocab

MSCOCO 36 (In-Domain)

XM3600 (Out-of-Domain)

Identical Distribution

Gradient

Weight Decay

Image-to-Text

Text-to-Image

Image-to-Text

Text-to-Image

AR ( ↑ )

F ( ↓ )

AR ( ↑ )

F ( ↓ )

AR ( ↑ )

F ( ↓ )

AR ( ↑ )

F ( ↓ )

(1): CLL-CLIP

通过持续语言学习拥抱CLIP中的语言包容性和多样性

正文

摘要

引言

相关工作

多语言视觉-语言预训练

持续学习 (CL)

方法

CLL剪辑

架构

词汇替换

训练目标

TEIR

初始化

正则化

实验

实验设置

基准

任务和任务顺序

指标

实现细节

方法比较

请到「今天看啥」查看全文