专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
纪法指引  ·  【镜鉴】政法委书记向阳,主动投案! ·  3 天前  
CHINADAILY  ·  Top News丨200 telecom ... ·  3 天前  
51好读  ›  专栏  ›  FightingCV

通过持续语言学习拥抱CLIP中的语言包容性和多样性

FightingCV  · 公众号  ·  · 2025-01-01 09:00

正文

摘要

近年来,视觉语言预训练模型 (VL-PTMs) 推动了多模态研究的发展,但它们在英语等少数几种语言中的熟练程度限制了其在更广泛社区中的适用性。 为此,人们越来越关注通过联合学习设置开发多语言 VL 模型,然而,由于成本高昂和数据可用性问题,这可能并不现实。 在这项工作中,我们建议通过持续语言学习 (CLL) 来扩展 VL-PTMs 的语言能力,其中模型需要增量更新其语言知识,而不会遭受灾难性遗忘 (CF)。 我们首先介绍一个名为 CLL-CLIP 的模型,该模型建立在 CLIP 的基础上,CLIP 是一种流行的 VL-PTM,已经获得了图像-英语文本对齐能力。 具体来说,CLL-CLIP 包含一个可扩展的符元嵌入层来处理语言差异。 它仅训练符元嵌入以提高内存稳定性,并在跨模态和跨语言目标下进行优化,以学习图像和多语言文本之间的对齐。 为了减轻由协变量偏移和词汇重叠引起的 CF,我们进一步提出了一种新方法,该方法确保在初始化期间所有符元嵌入的分布相同,并在训练期间规范化符元嵌入学习。 我们基于 MSCOCO 和 XM3600 数据集构建了一个涵盖 36 种语言的 CLL 基准,然后评估多语言图像-文本检索性能。 广泛的实验验证了 CLL-CLIP 的有效性,并表明我们的方法可以提升 CLL-CLIP,例如,在 XM3600 上文本到图像平均 Recall@1 提高了 6.7%,并且始终如一地改进了各种最先进的方法。 我们的代码和数据可在 https://github.com/yangbang18/CLFM 获取。

引言

图 1: 针对持续语言学习,NLP 中之前的研究工作 (Garcia et al. 2021; Huang et al. 2022) 训练完整的模型参数以学习新的语言,其中新的符元嵌入是随机初始化的,没有考虑先前符元分布。 我们的工作只需要训练最少的组件(即符元嵌入层),并针对符元嵌入的初始化和正则化来避免灾难性遗忘。 请注意,为了清晰起见,我们没有绘制冻结的视觉预训练模型 (PTM)。

大规模视觉语言预训练模型 (VL-PTM),例如 CLIP (Radford et al. 2021) 、Flamingo (Alayrac et al. 2022) 和 BLIP-2 (Li et al. 2023a) ,在多模态研究中取得了长足的进步 (Gan et al. 2022; Chen et al. 2023a) 。 然而,目前的大多数文献都偏向于少数几种语言,主要是英语,这阻碍了 VL-PTM 在不同语言社区的广泛采用和普及。 考虑到世界上大约有 7000 种语言,努力在 VL-PTM 中实现更大的语言包容性和多样性是必不可少的。

为了赋予 VL-PTM 理解多语言语境的能力,人们越来越关注通过联合学习的设置来开发多语言 VL-PTM (Zhou et al. 2021; Zhang, Hu, and Jin 2022; Chen et al. 2023b; Li et al. 2023b) ,这在多语言图像文本检索等任务中表现出显著的性能。 然而,联合学习存在两个关键问题。 一个是学习新知识的计算成本高且缺乏灵活性,因为我们需要在所有先前数据的基础上对新数据重新训练模型。 另一个问题是由于隐私和其他因素,在学习周期中并不总是有数据可用。 或者, 持续语言学习 (CLL),也称为 终身语言学习 ,是一种更实用的方法,可以低成本、高灵活地扩展 PTM 的语言能力。 CLL 的目标是将多语言性能整合到单个参数和内存受限的模型中,确保该模型能够在 非平稳 数据流下发展,而不会遭受 灾难性遗忘 (McCloskey and Cohen 1989) 。 虽然 CLL 已在自然语言处理 (NLP) 中得到广泛研究 (Biesialska, Biesialska, and Costa-jussà 2020; Escolano, Costa-Jussà, and Fonollosa 2021; Zhang et al. 2022; M’hamdi, Ren, and May 2023) ,但将 VL-PTM 与 CLL 有效整合仍未得到充分探索,并且它提出了独特的挑战,例如利用视觉信息来辅助语言学习。

在本文中,我们研究了 CLL 设置下 VL-PTM 的多语言习得。 我们首先选择 CLIP (Radford et al. 2021) ,这是一个流行的 VL-PTM,可以将图像和英语文本关联到相同的潜在空间,作为我们的骨干模型。 接下来,我们提出了一个名为 CLL-CLIP 的模型,用于增量学习新语言。 特别地,我们的模型包含一个可扩展的符元嵌入层来处理语言差异。 这种设计对于防止我们的模型遇到高比例的 超出词汇表 符元至关重要。 在训练期间,CLL-CLIP 保持所有预训练组件冻结,除了它的符元嵌入层,以保留先前获得的知识,并在跨模态和跨语言目标下进行优化,以学习图像和多语言文本之间的对齐。

接下来,我们提出一种针对 始化和 则化 (TEIR) 的 CLL 方法,以减轻灾难性遗忘 (CF)。 图 1 将我们的 TEIR 与 NLP 中先前的方法区分开来 (Garcia et al. 2021; Huang et al. 2022) 。 特别地,为了减少由 协变量偏移 (Shimodaira 2000; Ioffe and Szegedy 2015) 引起的 CF,我们的方法确保了初始化过程中所有符元嵌入的 相同分布 。 为了减轻由 词汇重叠 (Pfeiffer et al. 2021) 引起的 CF,我们的方法基于符元在 CLL-CLIP 已学习的任务中出现的次数来规范化符元嵌入学习。 我们的观点是,如果一个符元在先前学习的任务中很常见,则应该对其嵌入更新进行惩罚,以避免任务干扰。

为了评估我们的 CLL-CLIP 模型和 TEIR 方法的有效性,我们首先基于 MSCOCO (Chen et al. 2015) 和 XM3600 (Thapliyal et al. 2022) 数据集构建了一个涵盖 36 种语言的基准。 然后,我们基于我们的 CLL-CLIP 模型在这个基准上重现了各种最先进的 (SOTA) 持续学习和参数高效微调方法。 广泛的实验验证了 CLL-CLIP 的有效性,并表明 TEIR 可以提升 CLL-CLIP,例如,在 XM3600 上文本到图像平均召回率@1 提高 6.7%,并持续提高 SOTA 方法的性能。

我们的主要贡献如下。 (1) 据我们所知,我们提出了第一个关于通过持续语言学习增强双流 VL-PTM 语言能力的系统性研究。 (2) 我们为此项具有挑战性的设置设计了一个名为 CLL-CLIP 的模型,并引入了一种名为 TEIR 的新方法,该方法强调了符元嵌入的初始化和正则化,以减轻灾难性遗忘。 (3) 我们构建了一个 CLL 基准,用于评估跨 36 种语言的图像文本检索。 广泛的实验验证了我们 CLL-CLIP 和 TEIR 的有效性,并证明了 TEIR 在各种 SOTA 方法上的通用性。

相关工作

多语言视觉-语言预训练

随着单语言视觉-语言预训练模型 (VL-PTMs) 的不断发展,越来越多的努力致力于通过预训练来增强这些模型在多语言场景下的适应性。 M 3 P (Ni et al. 2021) 和 UC 2 (Zhou et al. 2021) 采用类似 BERT 的单流架构 (Devlin et al. 2019) 进行预训练,但在数据增强策略上有所不同。 M 3 P 使用字级增强来获取代码转换的 VL 对,而 UC 2 利用翻译引擎将英语图像标题转换为其他语言。 相反,MURAL (Jain et al. 2021) 、M-CLIP (Carlsson et al. 2022) 、MLA (Zhang, Hu, and Jin 2022) 和 mCLIP (Chen et al. 2023b) 基于像 CLIP 这样的双流模型构建其模型,以便在检索任务上获得更好的效率。 这些模型使用与 UC 2 相同的数据增强策略,但 MURAL 和 mCLIP 还考虑了带标注的翻译对。 除了检索任务之外,最近基于编码器-解码器的 PaLI (Chen et al. 2023c) 和 WS-mVLP (Li et al. 2023b) 在多语言视觉-语言生成任务中也展现了其优越性。 然而,上述所有方法都是通过联合学习的方式开发多语言 VL-PTMs,因此学习新语言的成本高且灵活性差。 在本文中,我们专注于通过一种更实用和灵活的设置,即持续学习,赋予双流 VL-PTMs 多语言理解能力。

图 2: 我们提出的方法概述。 (a):CLL-CLIP 基于双塔 VL-PTM(即 CLIP),保持所有预训练组件冻结,并包含一个可扩展和可训练的符元嵌入层,用于持续语言学习。 (b):我们的 TEIR 方法通过强调符元嵌入的初始化和正则化来缓解灾难性遗忘。
持续学习 (CL)

CL 的核心愿望是使机器能够模仿人类强大的适应性,持续地获取、更新、组织和利用知识 (Wang et al. 2023) 。 计算机视觉 (CV) 社区在持续学习 (CL) 方面取得了显著进展,这主要可以分为四类。 具体来说, 基于正则化 的方法对模型参数或预测的更改进行惩罚 (Kirkpatrick et al. 2017; Lee et al. 2019; Ahn et al. 2021) 基于重演 的方法存储历史数据或特征以保留先前获得的知识 (Chaudhry et al. 2019; Buzzega et al. 2020; Cha, Lee, and Shin 2021) 基于架构 的方法为不同的任务分配隔离的参数 (Yoon et al. 2018; Li et al. 2019; Ke, Liu, and Huang 2020) 基于提示 的方法将参数高效的模块添加到冻结的预训练模型 (PTM) 中以利用其能力 (Wang et al. 2022a, b; Smith et al. 2023; Gao et al. 2023) 。 CV 中持续学习的成功激发了 NLP 中的相关研究 (Biesialska, Biesialska, and Costa-jussà 2020; Wu et al. 2022; M’hamdi, Ren, and May 2023) 。 特别是,有一系列研究致力于如何将新的语言添加到预训练的神经机器翻译模型中。 一种尝试是添加和训练特定语言的组件,例如编码器/解码器 (Escolano, Costa-Jussà, and Fonollosa 2021) 和适配器 (Berard 2021) 。 另一种尝试建议动态替换模型的词汇表 (Garcia et al. 2021; Huang et al. 2022) 。 在本文中,我们在图 1 中将我们的工作与 NLP 中先前的工作区分开来。 与那些需要通过将数据馈送到模型中来估计参数重要性的正则化方法不同,我们的方法只需要数据的词汇统计信息。 与 CLIP 在视觉识别中的持续学习相比 (Ding et al. 2022; Thengane et al. 2022) ,我们重视 CLIP 在语言习得中的持续学习。

方法

在我们持续语言学习 (CLL) 的设置中,模型需要顺序学习 T 个任务,每个任务都有其对应的训练数据集 D t ( t [ 1 , T ] ) ,涵盖不重叠的语言子集。 在使用 ϕ t 参数化的模型对 D t 进行训练后,CLL 的目标是确保模型能够在之前的 t 任务中表现良好。 为了实现这一点,我们提出了 CLL-CLIP 和 TEIR,如下所述。

CLL剪辑

架构

如图 2 (a)所示,我们的模型基于CLIP构建,避免了从头开始训练,并包含一个由 𝜽 t 参数化的可扩展符元嵌入层来将多语言文本向量化。 特别地,CLIP由一个视觉编码器、一个文本编码器和一个主要用于英语的符元嵌入层组成。 1 . 分别将它们的参数表示为 𝛀 v e 𝛀 t e 𝛀 e m b 。 那么,我们在第 t 个任务时的模型参数为 ϕ t = { 𝛀 v e , 𝛀 t e , 𝛀 e m b , 𝜽 t } ,其中在推理过程中可以丢弃 𝛀 e m b 。 我们保持所有CLIP参数 𝛀 * 不变,只训练 𝜽 t 。 这种选择与高效VL预训练的研究结果一致 (Zhai et al. 2022; Zhang, Hu, and Jin 2022) ,也有利于在持续学习过程中保留先前获得的知识 (Wang et al. 2022b; Smith et al. 2023)

词汇替换

将对应于 𝜽 t 的词汇表示为 𝒱 t 。 训练前, 𝒱 0 与CLIP的词汇相同, 𝜽 0 = 𝛀 e m b 。 对于 t [ 1 , T ] ,需要动态更新 𝒱 t 以适应新语言的词汇。 因此,我们首先采用与CLIP相同的BPE过程 (Sennrich, Haddow, and Birch 2016) D t 构建词汇 𝒱 ^ t ,然后按照 (Garcia et al. 2021) 通过合并 𝒱 t 1 𝒱 ^ t 来获得 𝒱 t ,即 𝒱 t = 𝒱 t 1 𝒱 ^ t 。 需要注意两个问题:(1) 𝒱 ^ t 𝒱 t 1 (仅存在于 𝒱 ^ t 中的新符元)的嵌入初始化,以及(2)由于缺乏全面的文本统计数据而导致 𝒱 t 次优的特性。 我们将在TEIR中解决(1),并在后续实验中讨论(2)。

训练目标

我们CLL-CLIP的每个训练样本都是一个三元组 x = ( x I , x E , x F ) ,其中包括一个图像 x I 、一段 母语 x E (即 英语 文本)文本和一段 外语 文本 x F 。 在第 t 个任务中,我们如下获得三元组 x 的全局表示:

其中 g ( ) 表示前馈变换。 我们建议使用跨模态和跨语言目标训练CLL-CLIP,即 cm cl ,以便CLL-CLIP可以基于已获得的知识(即 𝒓 I 𝒓 E 之间的对齐)将 𝒓 I 𝒓 F 关联起来。 遵循CLIP,我们将 cm 实现为基于InfoNCE的图像-文本对比 (van den Oord, Li, and Vinyals 2018)

其中 K 表示批大小, , 表示余弦相似度, τ 表示温度超参数。 受 (Reimers and Gurevych 2020) 的启发,我们将 cl 实现为配对文本特征之间的均方误差:

其中 | | | | 2 表示L2范数。 CLL-CLIP的整体训练目标可以表述如下:

其中 γ * 是平衡两个损失的超参数。

TEIR

如图 2 (b)所示,TEIR的关键在于我们如何区别对待 𝒱 t , o l d = 𝒱 t 1 𝒱 ^ t 𝒱 t , = 𝒱 t 1 𝒱 ^ t 𝒱 t , n e w = 𝒱 ^ t 𝒱 t 1 以减轻灾难性遗忘(CF)。

初始化

基于Transformer (Vaswani et al. 2017) 构建的语言模型通常使用均值为零( μ = 0 )和预定义方差 σ 2 的高斯分布 𝒩 ( μ , σ 2 ) 来初始化符元嵌入。 令在 D t 上训练后CLL-CLIP的符元嵌入表示为 𝜽 t * 。 假设 𝜽 t 1 * 𝒩 ( μ t 1 , σ t 1 2 ) ,现在的重点是如何正确初始化 𝜽 t 。 遵循 (Garcia et al. 2021) 𝜽 t 继承自 𝜽 t 1 * 𝒱 t 1 的预训练嵌入,以保留先前获得的语言知识。 我们建议不要使用固定的分布 𝒩 ( μ , σ 2 ) 初始化 𝒱 t , n e w 的嵌入,而是建议 μ = μ t 1 σ = σ t 1 以确保新的和之前的符元嵌入具有 相同的分布 。 通过这样做,我们的方法减轻了特征漂移(又名协变量偏移)问题,这是导致概念漂移的一个潜在因素 (Ramasesh, Dyer, and Raghu 2021)

正则化

尽管 词汇重叠 有利于迁移学习 (Pfeiffer et al. 2021) ,但在没有约束的情况下学习 𝒱 t , 的嵌入会对包含词汇重叠符元的先前任务的性能造成干扰。 令表示直到第 t 个任务的符元统计量为 𝒄 t | 𝒱 t | ,其中 c t , j 是第 j 个符元在先前 t 1 个任务中出现的次数, c 1 , j 初始化为1。 为了克服词汇重叠引起的CF,我们根据符元嵌入 𝜽 t 重新缩放L2权重衰减 β 和梯度 ( 𝜽 t ) 的速率,如下所示,以标准的具有L2权重衰减的随机梯度下降法(SGD)为例:

其中 α 是学习率, λ t , j 定义为:

对于具有动量的复杂优化器,缩放操作仍然直接应用于 β ( 𝜽 t ) 。 正如公式( 5 )和( 6 )所示,我们保持与第 t 个任务无关的符元嵌入不变,惩罚 𝒱 t , 的嵌入学习,同时像往常一样更新 𝒱 t , n e w 的嵌入。 此方法避免了任务干扰,并确保了文本特征( 𝒓 F )的有效学习,从而在记忆稳定性和学习可塑性之间取得了更好的平衡。


MSCOCO 36 XM3600
# Train/Val/Test Images 113,287/5,000/5,000 -/-/3,600
# Languages 1 + 35 36
# Captions per Language 616,767 7260
表1: 数据集统计。 # 表示“数量”。 MSCOCO 36 是通过使用谷歌翻译将MSCOCO的英文标题翻译成XM3600中的其他35种语言获得的,遵循 (Thapliyal et al. 2022)
Setting Model MSCOCO 36 (In-Domain) XM3600 (Out-of-Domain)
Image-to-Text Text-to-Image Image-to-Text Text-to-Image
AR ( ) F ( ) AR ( ) F ( ) AR ( ) F ( ) AR ( ) F ( )
Joint Learning CLL-CLIP 53.3 - 31.4 - 50.7 - 37.1 -
M-CLIP (2022) 42.7 - 25.9 - 53.6 - 41.1 -
PaLI (2023c) - - - - 36.0 - 28.5 -
Continual Learning CLL-CLIP 29.6 23.2 15.2 15.6 26.4 23.1 17.6 18.4
with TEIR 38.3 (+8.7) 14.7 (+8.5) 20.5 (+5.3) 10.5 (+5.1) 35.0 (+8.6) 15.3 (+7.8) 24.3 (+6.7) 12.5 (+5.9)
oEWC (2018) 37.0 15.7 19.3 11.3 32.3 17.2 21.8 14.1
with TEIR 40.2 (+3.2) 12.7 (+3.0) 21.6 (+2.3) 9.3 (+2.0) 36.7 (+4.4) 13.4 (+3.8) 25.6 (+3.8) 11.2 (+2.9)
ER (2019) 34.1 17.9 17.8 12.3 29.0 20.0 19.4 16.0
with TEIR 39.3 (+5.2) 12.8 (+5.1) 21.5 (+3.7) 8.8 (+3.5) 35.4 (+6.4) 13.9 (+6.1) 24.7 (+5.3) 11.2 (+4.8)
DER (2020) 37.6 14.6 19.5 10.6 31.6 17.4 21.0 14.4
with TEIR 42.7 (+5.1) 9.4 (+5.2) 23.4 (+3.9) 6.9 (+3.7) 38.3 (+6.7) 10.9 (+6.5) 26.7 (+5.7) 9.3 (+5.1)
MLA (2022) 35.9 20.9 18.4 15.0 30.7 21.8 20.6 18.1
with TEIR 46.0 (+10.1) 11.2 (+9.7) 25.2 (+6.8) 8.6 (+6.4) 41.1 (+10.4) 12.3 (+9.5) 29.0 (+8.4) 10.7 (+7.4)
P-Tuning (2022) 30.1 23.9 15.0 16.3 24.9 23.9 16.4 19.3
with TEIR 41.1 (+11.0) 13.3 (+10.6) 22.2 (+7.2) 9.6 (+6.7) 35.5 (+10.6) 13.8 (+10.1) 25.4 (+9.0) 11.5 (+7.8)
LoRA (2022) 31.8 22.5 16.2 15.9 28.0 22.7 18.7 18.9
with TEIR 41.6 (+9.8) 12.9 (+9.6) 22.8 (+6.6) 9.7 (+6.2) 38.0 (+10.0) 13.9 (+8.8) 27.0 (+8.3) 11.7 (+7.2)
DualPrompt (2022a) 28.4 23.6 14.1 15.8 25.5 22.9 16.4 18.4
with TEIR 38.3 (+9.9) 14.0 (+9.6) 19.7 (+5.6) 10.6 (+5.2) 35.3 (+9.8) 14.1 (+8.8) 23.6 (+7.2) 12.1 (+6.3)
CodaPrompt (2023) 28.9 22.6 14.4 15.2 24.6 22.2 15.9 17.6
with TEIR 41.4 (+12.5) 9.7 (+12.9) 22.3 (+7.9) 7.1 (+8.1) 36.7 (+12.1) 9.3 (+12.9) 25.3 (+9.4) 7.9 (+9.7)
表2: MSCOCO 36 和XM3600上的检索性能。 :推理过程中需要任务标识。 除PaLI的结果外,所有结果均由我们自己复现。 请注意,PaLI并非针对图像文本检索进行了优化,但为完整起见,我们从 (Chen et al. 2023c) 中引用了其结果。 方括号中的数字表示我们的方法带来的绝对改进。

实验

实验设置

基准

我们基于 MSCOCO (Chen et al. 2015) XM3600 (Thapliyal et al. 2022) 构建了一个CLL基准,以评估我们提出的方法的有效性。 原因如下:(1) MSCOCO是一个流行的视觉语言基准,包含高质量的图像-英语标题对。 (2) XM3600包含36种语言的图像-标题对, 2 这些语言由地理位置多样的人们使用。 据我们所知,这个数据集涵盖了最多样的语言。 (3) 多语言视觉语言基准IGLUE (Bugliarello et al. 2022) 在任务类型和语言方面都存在差异,因此很难证明语言差异的影响。 如表 1 所示,我们使用Google翻译 3 进行数据增强,从而获得一个名为MSCOCO 36 的多语言数据集。 我们基于Karpathy分割 (Karpathy and Fei-Fei 2015) 在MSCOCO 36 上训练模型。 然后,我们分别报告在MSCOCO 36 和XM3600上的 领域内 领域外 结果。

任务和任务顺序

我们将每种语言视为一项任务,因此得到 T = 36 项任务。 模型首先在英语任务上进行训练,然后以随机顺序训练其余35项任务。

指标

a j , i j i )表示在第 j 个任务上训练后,第 i 个任务上的Recall@1(信息检索中一个常用的指标)。 与持续学习研究 (Wang et al. 2023) 一致,我们计算两个指标:

  • 平均召回率: 𝐀𝐑 j = 1 j i = 1 j a j , i ,衡量模型学习能力和记忆稳定性的综合指标。

  • 遗忘率: 𝐅 j = 1 j 1 i = 1 j 1 max k [ 1 , j 1 ] ( a k , i a j , i ) ,其值越低表示灾难性遗忘越少。

除非另有说明,我们报告最终 𝐀𝐑 T 𝐅 T 性能的 百分位数 ,并省略下标。

实现细节

我们遵循 (Zhang, Hu, and Jin 2022; Yang et al. 2023) ,采用CLIP的ViT-B/16变体作为主干网络。 我们遵循OpenCLIP (Ilharco et al. 2021) 并将 cm 的初始温度设置为0.07。 我们在公式( 4 )中搜索超参数 γ 1 γ 2 ,取值范围为 { 1 , 0.1 , 0.01 } ,并根据验证集上的AR指标设置 γ 1 = 0.01 γ 2 = 1 。 对于没有TEIR的模型,我们使用 𝒩 ( 0 , 0.02 2 ) 初始化新的符元嵌入,遵循OpenCLIP并设置 t , j , λ t , j = 1 (公式( 6 ))。 对于每个任务,我们将词汇量大小设置为10K。 我们使用128个样本的批次和具有0.05 L2权重衰减的AdamW (Loshchilov and Hutter 2019) 来训练模型3个epoch。 我们将学习率在预热10%迭代后固定设置为5e-5。 选择在当前任务验证集上Recall@{1, 5, 10}总和最高的模型用于下一个任务的训练。 我们在单张NVIDIA V100显卡上使用PyTorch进行实验,每个实验运行时间少于20小时。

方法比较

我们复现了以下最先进的持续学习(CL)和参数高效微调(PEFT)方法进行比较:(1) 基于正则化的在线弹性权重整合( oEWC ) (Schwarz et al. 2018) ,它惩罚模型参数的变化;(2) 基于重演的 ER (Chaudhry et al. 2019) ,它存储历史训练样本用于当前任务学习;(3) 基于重演和正则化的 DER (Buzzega et al. 2020) ,它存储先前学习样本的特征用于知识蒸馏;(4) 基于架构的 MLA (Zhang, Hu, and Jin 2022) P-Tuning (Liu et al. 2022) LoRA (Hu et al. 2022) ,它们分别将特定任务的适配器 (Houlsby et al. 2019) 、可学习的提示符元和分解矩阵插入到冻结的预训练模型中。 (5) 基于提示的 DualPrompt (Wang et al. 2022a) CodaPrompt (Smith et al. 2023) ,它们依赖于键-查询机制为冻结的预训练模型生成合适的提示。 我们使用上述实现细节在CLL-CLIP的文本分支中复现了所有上述方法。

Setting Initialization Regularization Oracle Vocab MSCOCO 36 (In-Domain) XM3600 (Out-of-Domain)
Identical Distribution Gradient Weight Decay Image-to-Text Text-to-Image Image-to-Text Text-to-Image
AR ( ) F ( ) AR ( ) F ( ) AR ( ) F ( ) AR ( ) F ( )
(1): CLL-CLIP






请到「今天看啥」查看全文