在过去的几年里,大规模视觉语言预训练模型(VLM)如CLIP
(Radford et al. 2021)
、ALIGN
(Jia et al. 2021)
和Florence
(Yuan et al. 2021)
出现了显著增长。 因此,研究人员积极探索有效地将这些大型模型适应其特定领域的方法。 在本文中,我们专注于将有影响力的CLIP模型迁移到视频动作识别的领域,强调其在推动该领域进步的关键作用。
无疑,由于其强大的表示能力和令人印象深刻的泛化性能,从强大的CLIP迁移知识具有巨大的前景。 最直观的方法是直接向CLIP的图像编码器添加时间建模,然后微调整个网络
(Wang et al. 2023; Tu et al. 2023; Ni et al. 2022)
。 然而,微调的计算成本很高,并可能影响CLIP最初的泛化能力。 随着PEFT的出现,研究人员开始探索冻结原始CLIP参数并引入各种适配器
(Liu et al. 2023; Park, Lee, and Sohn 2023)
或提示
(Wasim et al. 2023; Ju et al. 2022)
,只训练新添加的参数。 值得注意的是,PEFT促使人们重新评估传统的单模态视频分类框架。 通过直接利用CLIP的视觉分支以及添加的适配器,再加上最后的线性分类层,这些方法在监督场景中展示了令人印象深刻的结果
(Lin et al. 2022b; Pan et al. 2022; Yang et al. 2023; Park, Lee, and Sohn 2023; Zhao et al. 2023)
。 然而,值得注意的是,在这些方法中排除文本分支会导致CLIP的泛化能力的损失,而这正是CLIP本身的基本吸引力之一。
图3:
(a) M
2
-CLIP概述:图中说明了将适配器集成到每个Transformer层的示例。 M
2
-CLIP由视频编码器、文本编码器和多任务解码器组成,其中两个编码器的骨干网络被冻结,并由提出的可训练TED-Adapter和Text-Adapter辅助。 多任务解码器具有四个不同的头,它们利用多任务约束来改进整个多模态框架的联合表示。 (b) 提议适配器的详细结构,其中
L
=
1
+
M
和
h
×
w
=
M
。
形式上,框架的输入给定为空间大小为
H
×
W
、包含
T
个采样帧的视频
𝐕
∈
ℝ
T
×
H
×
W
×
3
,以及来自预定义标签集
𝒴
的文本标签
y
。
视频编码器:
𝐄
v
由
L
v
个Transformer层
{
ℰ
v
(
i
)
}
i
=
1
L
v
和相应的提出的视觉TED-Adapters
{
𝒜
v
(
j
)
}
j
=
1
L
A
v
组成。 输入的第
t
帧被划分为不重叠的patches
{
𝐏
t
,
i
}
i
=
1
M
∈
ℝ
P
2
×
3
,
M
=
H
W
/
P
2
。 然后,它们被投影到patch嵌入
𝐗
v
,
t
∈
ℝ
M
×
d
v
中,前面添加一个可学习的类别符元
𝐂
t
,并添加位置编码
𝐞
v
。 在数学上,帧级输入构建如下:
如果我们将视觉适配器放在每个Transformer层之前,输入将按顺序处理为:
为了获得最终的视频表示
v
,最后一层Transformer层的类别符元
c
t
(
L
v
)
通过
𝐯
t
=
𝐡
v
(
c
t
(
L
v
)
)
投影到一个共同的视频-语言(VL)空间,并在时间维度上取平均值,
语言编码器:
同样,
𝐄
l
由
L
l
个Transformer层
{
ℰ
l
(
i
)
}
i
=
1
L
l
及其对应的文本适配器
{
𝒜
l
(
j
)
}
j
=
1
L
A
l
组成。 输入词被标记化并投影到词嵌入
𝐗
l
∈
ℝ
N
×
d
l
中,其中
N
是文本长度。 编码器的输入构造如下:
以在每个Transformer层之前插入文本适配器为例,每一层的特征获取方式如下:
标签
y
的最终视觉语言空间文本表示
𝐰
∈
ℝ
d
v
l
通过
𝐰
=
𝐡
l
(
𝐳
l
,
N
(
L
l
)
)
获得,其中
𝐳
l
,
N
(
L
l
)
是
𝐳
l
(
L
l
)
的最后一个符元,
𝐡
l
是一个投影层。
视频TED适配器:
将CLIP的图像分支适配到视频分支需要额外的时空建模模块,这可以从两个角度入手:全局时间增强和局部时间差异建模。 前者是直观的全局时间聚合,称为时空特征
(Lin, Gan, and Han 2019; Feichtenhofer et al. 2019)
,其中时间注意力或时间卷积应用于多个帧的特征以聚合相似的动作主体。 这在CLIP的迁移中已被广泛探索
(Pan et al. 2022; Yang et al. 2023; Liu et al. 2023)
。 后者是短期逐帧特征差异学习,旨在捕捉相邻帧之间的局部运动模式和动态。 这种特征在早期的计算高效卷积算法中已被提及
(Jiang et al. 2019; Wang et al. 2022; Li et al. 2020)
,但在CLIP迁移的背景下仍未被探索。 为了在一个统一的结构中探索这两种时间建模方法,我们设计了一种新颖的TED-Adapter,它同时学习
T
emporal
E
nhancements(时间增强)和时间
D
ifferences(时间差异)。
如图
3
b所示,我们首先采用一维时间卷积进行时间特征增强。 对于包含类别符元和块符元
𝐙
=
{
[
𝐜
t
,
𝐳
v
,
t
]
}
t
=
1
T
∈
ℝ
T
×
(
1
+
M
)
×
d
v
的TED-Adapter层的输入,我们执行以下操作:
其中
𝐖
d
n
和
𝐖
u
p
是降维和升维权重。
Conv1D
表示用于时空建模的一维卷积,它作用于时间维度。 请注意,为简便起见,本节省略了重塑操作,但如图
3
b所示。
接下来,对于时间差异建模,我们从当前帧中减去前一帧的特征,然后采用二维空间卷积来自动学习相邻特征差异的有用信息。 形式上,给定第
t
帧的输入块符元
𝐳
v
,
t
,