CL 的核心愿望是使机器能够模仿人类强大的适应性,持续地获取、更新、组织和利用知识
(Wang et al. 2023)
。 计算机视觉 (CV) 社区在持续学习 (CL) 方面取得了显著进展,这主要可以分为四类。 具体来说,
基于正则化
的方法对模型参数或预测的更改进行惩罚
(Kirkpatrick et al. 2017; Lee et al. 2019; Ahn et al. 2021)
;
基于重演
的方法存储历史数据或特征以保留先前获得的知识
(Chaudhry et al. 2019; Buzzega et al. 2020; Cha, Lee, and Shin 2021)
;
基于架构
的方法为不同的任务分配隔离的参数
(Yoon et al. 2018; Li et al. 2019; Ke, Liu, and Huang 2020)
;
基于提示
的方法将参数高效的模块添加到冻结的预训练模型 (PTM) 中以利用其能力
(Wang et al. 2022a, b; Smith et al. 2023; Gao et al. 2023)
。 CV 中持续学习的成功激发了 NLP 中的相关研究
(Biesialska, Biesialska, and Costa-jussà 2020; Wu et al. 2022; M’hamdi, Ren, and May 2023)
。 特别是,有一系列研究致力于如何将新的语言添加到预训练的神经机器翻译模型中。 一种尝试是添加和训练特定语言的组件,例如编码器/解码器
(Escolano, Costa-Jussà, and Fonollosa 2021)
和适配器
(Berard 2021)
。 另一种尝试建议动态替换模型的词汇表
(Garcia et al. 2021; Huang et al. 2022)
。 在本文中,我们在图
1
中将我们的工作与 NLP 中先前的工作区分开来。 与那些需要通过将数据馈送到模型中来估计参数重要性的正则化方法不同,我们的方法只需要数据的词汇统计信息。 与 CLIP 在视觉识别中的持续学习相比
(Ding et al. 2022; Thengane et al. 2022)
,我们重视 CLIP 在语言习得中的持续学习。
方法
在我们持续语言学习 (CLL) 的设置中,模型需要顺序学习
T
个任务,每个任务都有其对应的训练数据集
D
t
(
t
∈
[
1
,
T
]
)
,涵盖不重叠的语言子集。 在使用
ϕ
t
参数化的模型对
D
t
进行训练后,CLL 的目标是确保模型能够在之前的
t
任务中表现良好。 为了实现这一点,我们提出了 CLL-CLIP 和 TEIR,如下所述。
CLL剪辑
架构
如图
2
(a)所示,我们的模型基于CLIP构建,避免了从头开始训练,并包含一个由
𝜽
t
参数化的可扩展符元嵌入层来将多语言文本向量化。 特别地,CLIP由一个视觉编码器、一个文本编码器和一个主要用于英语的符元嵌入层组成。
1
. 分别将它们的参数表示为
𝛀
v
e
、
𝛀
t
e
和
𝛀
e
m
b
。 那么,我们在第
t
个任务时的模型参数为
ϕ
t
=
{
𝛀
v
e
,
𝛀
t
e
,
𝛀
e
m
b
,
𝜽
t
}
,其中在推理过程中可以丢弃
𝛀
e
m
b
。 我们保持所有CLIP参数
𝛀
*
不变,只训练
𝜽
t
。 这种选择与高效VL预训练的研究结果一致
(Zhai et al. 2022; Zhang, Hu, and Jin 2022)
,也有利于在持续学习过程中保留先前获得的知识
(Wang et al. 2022b; Smith et al. 2023)
。
词汇替换
将对应于
𝜽
t
的词汇表示为
𝒱
t
。 训练前,
𝒱
0
与CLIP的词汇相同,
𝜽
0
=
𝛀
e
m
b
。 对于
t
∈
[
1
,
T
]
,需要动态更新
𝒱
t
以适应新语言的词汇。 因此,我们首先采用与CLIP相同的BPE过程
(Sennrich, Haddow, and Birch 2016)
从
D
t
构建词汇
𝒱
^
t
,然后按照
(Garcia et al. 2021)
通过合并
𝒱
t
−
1
和
𝒱
^
t
来获得
𝒱
t
,即
𝒱
t
=
𝒱
t
−
1
∪
𝒱
^
t
。 需要注意两个问题:(1)
𝒱
^
t
∖
𝒱
t
−
1
(仅存在于
𝒱
^
t
中的新符元)的嵌入初始化,以及(2)由于缺乏全面的文本统计数据而导致
𝒱
t
次优的特性。 我们将在TEIR中解决(1),并在后续实验中讨论(2)。
训练目标
我们CLL-CLIP的每个训练样本都是一个三元组
x
=
(
x
I
,
x
E
,
x
F
)
,其中包括一个图像
x
I
、一段
母语
x
E
(即
英语
文本)文本和一段
外语
文本
x
F
。 在第
t
个任务中,我们如下获得三元组
x
的全局表示:
其中
g
(
⋅
)
表示前馈变换。 我们建议使用跨模态和跨语言目标训练CLL-CLIP,即
ℒ
cm
和
ℒ
cl
,以便CLL-CLIP可以基于已获得的知识(即
𝒓
I
和
𝒓
E
之间的对齐)将
𝒓
I
与
𝒓
F
关联起来。 遵循CLIP,我们将
ℒ
cm
实现为基于InfoNCE的图像-文本对比
(van den Oord, Li, and Vinyals 2018)
:
其中
K
表示批大小,
⟨
⋅
,
⋅
⟩
表示余弦相似度,
τ
表示温度超参数。 受
(Reimers and Gurevych 2020)
的启发,我们将
ℒ
cl
实现为配对文本特征之间的均方误差:
其中
|
|
⋅
|
|
2
表示L2范数。 CLL-CLIP的整体训练目标可以表述如下:
其中
γ
*
是平衡两个损失的超参数。
TEIR
如图
2
(b)所示,TEIR的关键在于我们如何区别对待
𝒱
t
,
o
l
d
=
𝒱
t
−
1
∖
𝒱
^
t
、
𝒱
t
,
∩
=
𝒱
t
−
1
∩
𝒱
^
t
和
𝒱
t
,
n
e
w
=
𝒱
^
t
∖
𝒱
t
−
1
以减轻灾难性遗忘(CF)。
初始化
基于Transformer
(Vaswani et al. 2017)
构建的语言模型通常使用均值为零(
μ
=
0
)和预定义方差
σ
2
的高斯分布
𝒩
(
μ
,
σ
2
)
来初始化符元嵌入。 令在
D
t
上训练后CLL-CLIP的符元嵌入表示为
𝜽
t
*
。 假设
𝜽
t
−
1
*
∼
𝒩
(
μ
t
−
1
,
σ
t
−
1
2
)
,现在的重点是如何正确初始化
𝜽
t
。 遵循
(Garcia et al. 2021)
,
𝜽
t
继承自
𝜽
t
−
1
*
中
𝒱
t
−
1
的预训练嵌入,以保留先前获得的语言知识。 我们建议不要使用固定的分布
𝒩
(
μ
,
σ
2
)
初始化
𝒱
t
,
n
e
w
的嵌入,而是建议
μ
=
μ
t
−
1
和
σ
=
σ
t
−
1
以确保新的和之前的符元嵌入具有
相同的分布
。 通过这样做,我们的方法减轻了特征漂移(又名协变量偏移)问题,这是导致概念漂移的一个潜在因素
(Ramasesh, Dyer, and Raghu 2021)
。
正则化
尽管
词汇重叠
有利于迁移学习
(Pfeiffer et al. 2021)
,但在没有约束的情况下学习
𝒱
t
,
∩
的嵌入会对包含词汇重叠符元的先前任务的性能造成干扰。 令表示直到第
t
个任务的符元统计量为
𝒄
t
∈
ℝ
|
𝒱
t
|
,其中
c
t
,
j
是第
j
个符元在先前
t
−
1
个任务中出现的次数,
c
1
,
j
初始化为1。 为了克服词汇重叠引起的CF,我们根据符元嵌入
𝜽
t
重新缩放L2权重衰减
β
和梯度
∇
ℒ
(
𝜽
t
)
的速率,如下所示,以标准的具有L2权重衰减的随机梯度下降法(SGD)为例:
其中
α
是学习率,
λ
t
,
j
定义为:
对于具有动量的复杂优化器,缩放操作仍然直接应用于
β
和
∇
ℒ
(
𝜽
t
)
。 正如公式(
5
)和(
6
)所示,我们保持与第
t
个任务无关的符元嵌入不变,惩罚
𝒱
t
,
∩
的嵌入学习,同时像往常一样更新
𝒱
t
,
n
e
w
的嵌入。 此方法避免了任务干扰,并确保了文本特征(
𝒓
F
)的有效学习,从而在记忆稳定性和学习可塑性之间取得了更好的平衡。