具有双编码器架构的大规模预训练文本-图像模型(例如 CLIP
Radford et al. (2021)
)通常被用于各种视觉-语言应用,包括文本-图像检索。 然而,由于大量的索引和推理时间以及大量的计算资源消耗,这些模型在边缘设备或实时情况下仍然不太实用。 尽管知识蒸馏技术已被广泛用于单模态模型压缩,但很少有人研究如何将它们扩展到模态和教师/学生数量都加倍的情况。 In this paper, we conduct comprehensive experiments on this topic and propose the fully-
C
onnected kn
o
wledge interactio
n
gr
a
ph (Cona) technique for cross-modal pre-training distillation. 根据我们的发现,生成的 ConaCLIP 在广泛使用的 Flickr30K 和 MSCOCO 基准测试中,在轻量级设置下实现了 SOTA 性能。 我们方法在电子商务平台上的行业应用进一步证明了 ConaCLIP 的显著有效性。
1
最近,受预训练语言模型巨大成功的启发
Devlin et al. (2019); Liu et al. (2019); Brown et al. (2020)
,大规模视觉-语言预训练的研究
Tan and Bansal (2019); Li et al. (2020); Radford et al. (2021); Li et al. (2022); Wang et al. (2022b, 2023)
在包括文本-图像检索在内的各种视觉-语言任务上取得了显著进展。 这些现有方法 通常可以根据模型架构分为两类:
交叉编码器
和
双编码器
。
交叉编码器
通常会添加额外的 Transformer
Vaswani et al. (2017)
层来模拟图像和文本表示之间的深层交互。 它通常可以提高检索性能,但当应用于整个图像集合时,由于每次给出新的文本查询时都需要跨模态成本,因此会导致检索速度变得难以忍受。 相反,
双编码器
以完全解耦的方式对视觉和文本输入进行编码。 图像表示允许预先计算,并且与文本查询无关地重复使用。 这些方法还可以利用快速近似最近邻 (ANN) 搜索
Muja 和 Lowe (2009); Jegou 等人 (2010); Johnson 等人 (2019)
在运行时。
为了解释方便,我们将
text
、
image
、
teacher
和
student
分别缩写为
T
、
I
、
tch
和
stu
。
F
代表由编码器架构
E
输出的 L2 归一化特征向量。
在学生学习之前,教师
E
tch
T
和
E
tch
I
通常首先使用一个目标进行预训练,该目标将匹配的文本-图像对的嵌入推得更近,同时将不匹配的嵌入推得更远,具有较大的模型容量和海量数据。 具体来说,CLIP
Radford 等人 (2021)
将 InfoNCE
Oord 等人 (2018)
损失作为监督形式。 不失一般性,给定两个输出的特征向量
F
a
和
F
b
∈
ℛ
N
×
d
,我们定义:
其中
N
是小批量大小,
d
是通道大小,
τ
是温度超参数。 CLIP 的最终损失可以表示为:
接下来,学生
E
stu
T
和
E
stu
I
的预训练蒸馏开始,教师
E
tch
T
和
E
tch
I
的参数被冻结。 MoTIS
Ren 和 Zhu (2022)
在此阶段也采用了基于 InfoNCE 的损失函数,并在文本和图像领域分别实现:
根据公式 (
4
) 中的下标, 不难看出 MoTIS 只涉及
模内
师生
学习。
3.2
使用 Cona 进行预训练蒸馏
与现有工作不同,我们的方法引入了全连接知识交互图 (Cona) 用于预训练蒸馏。 除了
模内师生
学习之外,我们的方法还包括
模内生生
学习,
模间师生
学习和
模间生生
学习,如图
1
所示。 为学生
E
stu
T
和
E
stu
I
建立的这个全连接学习图,是多视角和多任务学习方案的集成,可以增强预训练模型所需的鲁棒性和有效性
Caruana (1997); Luong 等人 (2016); Aghajanyan 等人 (2021)
。
由于
F
a
、
F
b
、
F
a
~
和
F
b
~
已被 L2 归一化,余弦相似度
F
i
a
F
j
b
⊤
和
F
i
a
~
F
j
b
~
⊤
的值在范围
[
−
1
,
1
]
内。 预测
F
i
a
F
j
b
⊤
与目标
F
i
a
~
F
j
b
~
⊤
之间的距离需要缩短。 因此,这里也采用了 L2 范数的平方。
KL-Div 损失
使用 Kullback–Leibler 散度来衡量预测概率分布与目标概率分布之间的差异。 给定
p
i
,
j
通过如式 (
1
) 所示的 softmax 操作获得,它最小化以下优化目标:
Learning Type
Supervision Strategies
InfoNCE
FD
SD
KL-Div
Sym-SD
Sym-KL-Div
intra-modal stu-stu learning
\
\
ℒ
F
stu
T
→
F
stu
T
⇔
F
tch
T
→
F
tch
T
SD
+
ℒ
F
stu
I
→
F
stu
I
⇔
F
tch
I
→
F
tch
I
SD
ℒ
F
stu
T
→
F
stu
T
∥
F
tch
T
→
F
tch
T
KL
-
Div
+
ℒ
F
stu
I
→
F
stu
I
∥
F
tch
I
→
F
tch
I
KL
-
Div
ℒ
F
stu
T
→
F
stu
T
⇔
F
stu
I
→
F
stu
I
SD
ℒ
F
stu
T
→
F
stu
T
∥
F
stu
I
→
F
stu
I
KL
-
Div
+
ℒ
F
stu
I
→
F
stu
I
∥
F
stu
T
→
F
stu
T
KL
-
Div
inter-modal stu-stu learning
ℒ
F
stu
T
→
F
stu
I
InfoNCE
+
ℒ
F
stu
I
→
F
stu
T
InfoNCE
ℒ
F
stu
T
⇔
F
stu
I
FD
ℒ
F
stu
T
→
F
stu
I
⇔
F
tch
T
→
F
tch
I
SD
+
ℒ
F
stu
I
→
F
stu
T
⇔
F
tch
I
→
F
tch
T
SD
ℒ
F
stu
T
→
F
stu
I
∥
F
tch
T
→
F
tch
I
KL
-
Div
+
ℒ
F
stu
I
→
F
stu
T
∥
F
tch
I
→
F
tch
T
KL
-
Div
\
\
intra-modal tch-stu learning
ℒ
F
stu
T
→
F
tch
T
InfoNCE
+
ℒ
F
stu
I
→
F
tch
I
InfoNCE
ℒ
F
stu
T
⇔
F
tch
T
FD
+
ℒ
F
stu
I
⇔
F
tch
I
FD
ℒ
F
stu
T
→
F
tch
T
⇔
F
tch
T
→
F
tch
T
SD
+
ℒ
F
stu
I
→
F
tch
I
⇔
F
tch
I
→
F
tch
I
SD
ℒ
F
stu
T
→
F
tch
T
∥
F
tch
T
→
F
tch
T
KL
-
Div
+
ℒ
F
stu
I
→
F
tch
I
∥
F
tch
I
→
F
tch
I
KL
-
Div
ℒ
F
stu
T
→
F
tch
T
⇔
F
stu
I
→
F
tch
I
SD
ℒ
F
stu
T
→
F
tch
T
∥
F
stu
I
→
F
tch
I
KL
-
Div
+
ℒ
F
stu
I
→
F
tch
I
∥
F
stu
T
→
F
tch
T
KL
-
Div
inter-modal tch-stu learning
ℒ
F
stu
T
→
F
tch
I
InfoNCE
+
ℒ
F
stu
I
→
F
tch
T
InfoNCE
ℒ
F
stu
T
⇔
F
tch
I
FD
+
ℒ
F
stu
I
⇔
F
tch
T
FD
ℒ
F
stu
T
→
F
tch
I
⇔
F
tch
T
→
F
tch
I
SD
+
ℒ
F
stu
I
→
F
tch
T
⇔
F
tch
I
→
F
tch
T
SD
ℒ
F
stu
T
→
F
tch
I
∥
F
tch
T
→
F
tch
I
KL
-
Div
+
ℒ
F
stu
I
→
F
tch
T
∥
F
tch
I
→
F
tch
T
KL
-
Div
ℒ
F
stu
T
→
F
tch
I
⇔
F
stu
I
→
F
tch
T
SD
ℒ
F
stu
T
→
F
tch
I
∥
F
stu
I
→
F
tch
T
KL
-
Div
+
ℒ
F
stu
I
→
F
tch
T
∥
F
stu
T
→
F
tch
I
KL
-
Div