专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

M2-CLIP：用于视频动作识别的多模态、多任务适应框架

FightingCV · 公众号 · · 2025-01-04 09:00

正文

摘要

近来，像CLIP这样的大型视觉-语言预训练模型的兴起，加上参数高效微调 (PEFT) 技术，在视频动作识别领域引起了极大的关注。然而，现有的方法往往优先考虑强大的监督性能，而牺牲了模型在迁移过程中的泛化能力。在本文中，我们介绍了一种名为M 2 -CLIP的新型多模态、多任务CLIP自适应框架来应对这些挑战，同时保持高监督性能和强大的可迁移性。首先，为了增强单个模态的架构，我们在视觉和文本分支都引入了多模态适配器。具体来说，我们设计了一种新颖的视觉TED-Adapter，它执行全局时间增强和局部时间差异建模，以提高视觉编码器的时间表示能力。此外，我们采用文本编码器适配器来加强语义标签信息的学习。其次，我们设计了一个具有丰富监督信号的多任务解码器，以巧妙地满足在多模态框架内对强大监督性能和泛化能力的需求。实验结果验证了我们方法的有效性，证明了其在监督学习中具有卓越的性能，同时在零样本场景中保持了强大的泛化能力。

引言

图1：性能比较：零样本与监督精度。圆圈面积代表可调参数的数量，其中性能更好的模型位于右侧和上侧，圆圈面积较小。我们的M 2 -CLIP在可调参数非常少的情况下实现了最佳零样本性能。

在过去的几年里，大规模视觉语言预训练模型（VLM）如CLIP (Radford et al. 2021) 、ALIGN (Jia et al. 2021) 和Florence (Yuan et al. 2021) 出现了显著增长。因此，研究人员积极探索有效地将这些大型模型适应其特定领域的方法。在本文中，我们专注于将有影响力的CLIP模型迁移到视频动作识别的领域，强调其在推动该领域进步的关键作用。

无疑，由于其强大的表示能力和令人印象深刻的泛化性能，从强大的CLIP迁移知识具有巨大的前景。最直观的方法是直接向CLIP的图像编码器添加时间建模，然后微调整个网络 (Wang et al. 2023; Tu et al. 2023; Ni et al. 2022) 。然而，微调的计算成本很高，并可能影响CLIP最初的泛化能力。随着PEFT的出现，研究人员开始探索冻结原始CLIP参数并引入各种适配器 (Liu et al. 2023; Park, Lee, and Sohn 2023) 或提示 (Wasim et al. 2023; Ju et al. 2022) ，只训练新添加的参数。值得注意的是，PEFT促使人们重新评估传统的单模态视频分类框架。通过直接利用CLIP的视觉分支以及添加的适配器，再加上最后的线性分类层，这些方法在监督场景中展示了令人印象深刻的结果 (Lin et al. 2022b; Pan et al. 2022; Yang et al. 2023; Park, Lee, and Sohn 2023; Zhao et al. 2023) 。然而，值得注意的是，在这些方法中排除文本分支会导致CLIP的泛化能力的损失，而这正是CLIP本身的基本吸引力之一。

图2：将单模态框架迁移到多模态框架的分析。 (a) 性能比较。请注意，ST-Adapter无法进行零样本迁移，因此在零样本UCF101和HMDB51中没有结果。 (b) ST-Adapter+text 与我们方法对应的40个标签特征的前40个相关SSv2标签特征的类间相关性图。颜色越红，特征耦合越强。我们的M 2 -CLIP最终提高了四个数据集上的性能，并显著降低了不同标签特征之间的相关性。

PEFT也可以应用于多模态CLIP迁移框架，直接影响视觉分支 (Liu et al. 2023) 或文本分支 (Ju et al. 2022) ，甚至同时影响两者 (Wasim et al. 2023) 。它显著提高了效率并减少了可学习参数的数量。然而，冻结多模态主干会导致监督准确率下降，与单模态框架的性能相比存在差距，即使结合了强大的单模态适配器也是如此。我们进行了实验以进一步验证这一观察结果，如图 2 左侧所示。使用ST-Adapter (Pan et al. 2022) 作为单模态框架的代表，我们将CLIP的文本分支引入，将ST-Adapter转换为多模态框架。正如预期的那样，通过在学习适配器时冻结CLIP参数，我们确实观察到监督性能的显著下降。原因是CLIP的文本分支缺乏足够的判别特征，特别是对于动作动词，如图 2 右侧所示。然后，CLIP自身的对比学习损失使得在使用相对较小的数据集（与其原始训练集相比）进行训练时难以学习视频的判别特征，尤其是在文本数据稀少的情况下。

为了减轻性能下降的同时确保泛化能力，我们提出了一种新的多模态、多任务CLIP迁移框架，称为M 2 -CLIP。首先，我们专注于多模态适配以构建更强大的架构，在文本和视觉分支中都添加适配器。特别地，为了更好地表示视频的时间信息，我们设计了一个新颖的TED-Adapter，能够同时集成全局时间增强和局部时间差异建模。此外，我们在文本分支中引入了一种简单的适配器来捕获与动作标签相关的额外语义信息，这显著改善了第一个问题。其次，我们设计了一个多任务解码器，以挖掘更大的学习潜力。解码器由四个组件组成。 (a) 第一个组件是原始的对比学习头，其目标是对齐成对的视频文本表示。 (b) 第二个组件是跨模态分类头，它可以突出跨模态特征的判别能力。 (c) 第三，我们在文本分支的最终层设计了一个跨模态掩码语言建模头，以促进视觉特征对动词的识别关注。 (d) 最后，我们在视觉分支的末端加入了一个视觉特征分类器，以方便区分不同类别下的视觉特征。

总之，我们的贡献有三方面：1) 我们提出了一种新颖的多模态、多任务自适应框架，将强大的CLIP迁移到视频动作识别任务中。如图 1 所示，此方法在确保最先进的零样本可迁移性的同时，实现了强大的监督性能。 2) 我们设计了一个新的视觉TED-adapter，它执行时间增强和差异建模以增强视频编码器的表示能力。同时，我们为文本编码器引入了适配器，使标签表示可学习和可调整。 3) 我们引入了一个多任务解码器来提高整个框架的学习能力，巧妙地实现了监督性能和泛化能力之间的平衡。

方法

图3： (a) M 2 -CLIP概述：图中说明了将适配器集成到每个Transformer层的示例。 M 2 -CLIP由视频编码器、文本编码器和多任务解码器组成，其中两个编码器的骨干网络被冻结，并由提出的可训练TED-Adapter和Text-Adapter辅助。多任务解码器具有四个不同的头，它们利用多任务约束来改进整个多模态框架的联合表示。 (b) 提议适配器的详细结构，其中 L = 1 + M 和 h × w = M 。

架构概述

如图 3 a所示，我们的框架包含三个关键组件：视频编码器、文本编码器和多任务解码器。在本节中，我们将介绍整个架构的概述，并将提出的多模态适配器和多任务解码器的细节留给接下来的两节。

形式上，框架的输入给定为空间大小为 H × W 、包含 T 个采样帧的视频 𝐕 ∈ ℝ T × H × W × 3 ，以及来自预定义标签集 𝒴 的文本标签 y 。

视频编码器： 𝐄 v 由 L v 个Transformer层 { ℰ v ( i ) } i = 1 L v 和相应的提出的视觉TED-Adapters { 𝒜 v ( j ) } j = 1 L A v 组成。输入的第 t 帧被划分为不重叠的patches { 𝐏 t , i } i = 1 M ∈ ℝ P 2 × 3 ， M = H ⁢ W / P 2 。然后，它们被投影到patch嵌入 𝐗 v , t ∈ ℝ M × d v 中，前面添加一个可学习的类别符元 𝐂 t ，并添加位置编码 𝐞 v 。在数学上，帧级输入构建如下：

如果我们将视觉适配器放在每个Transformer层之前，输入将按顺序处理为：

为了获得最终的视频表示 v ，最后一层Transformer层的类别符元 c t ( L v ) 通过 𝐯 t = 𝐡 v ⁢ ( c t ( L v ) ) 投影到一个共同的视频-语言(VL)空间，并在时间维度上取平均值，

语言编码器：同样， 𝐄 l 由 L l 个Transformer层 { ℰ l ( i ) } i = 1 L l 及其对应的文本适配器 { 𝒜 l ( j ) } j = 1 L A l 组成。输入词被标记化并投影到词嵌入 𝐗 l ∈ ℝ N × d l 中，其中 N 是文本长度。编码器的输入构造如下：

以在每个Transformer层之前插入文本适配器为例，每一层的特征获取方式如下：

标签 y 的最终视觉语言空间文本表示 𝐰 ∈ ℝ d v ⁢ l 通过 𝐰 = 𝐡 l ⁢ ( 𝐳 l , N ( L l ) ) 获得，其中 𝐳 l , N ( L l ) 是 𝐳 l ( L l ) 的最后一个符元， 𝐡 l 是一个投影层。

解码器：一旦获得来自两个编码器的输出特征，它们就会被送入我们专门设计的多任务解码器。在训练过程中，解码器的作用是对编码器生成的特征表示施加约束，促进两种模态之间的语义对齐，并能够区分不同类别特征。模型完成训练后，解码器用途广泛，能够生成用于监督学习的分类分数并进行零样本分类。解码器结构的详细设计将在下一节中详细阐述。

视觉和文本适配器

为了更好地将CLIP迁移到这项任务并增强标签中动作动词的语义表示，我们为视觉和文本分支都引入了适配器，以提高它们各自的表示能力。

视频TED适配器：将CLIP的图像分支适配到视频分支需要额外的时空建模模块，这可以从两个角度入手：全局时间增强和局部时间差异建模。前者是直观的全局时间聚合，称为时空特征 (Lin, Gan, and Han 2019; Feichtenhofer et al. 2019) ，其中时间注意力或时间卷积应用于多个帧的特征以聚合相似的动作主体。这在CLIP的迁移中已被广泛探索 (Pan et al. 2022; Yang et al. 2023; Liu et al. 2023) 。后者是短期逐帧特征差异学习，旨在捕捉相邻帧之间的局部运动模式和动态。这种特征在早期的计算高效卷积算法中已被提及 (Jiang et al. 2019; Wang et al. 2022; Li et al. 2020) ，但在CLIP迁移的背景下仍未被探索。为了在一个统一的结构中探索这两种时间建模方法，我们设计了一种新颖的TED-Adapter，它同时学习 T emporal E nhancements（时间增强）和时间 D ifferences（时间差异）。

如图 3 b所示，我们首先采用一维时间卷积进行时间特征增强。对于包含类别符元和块符元 𝐙 = { [ 𝐜 t , 𝐳 v , t ] } t = 1 T ∈ ℝ T × ( 1 + M ) × d v 的TED-Adapter层的输入，我们执行以下操作：

其中 𝐖 d ⁢ n 和 𝐖 u ⁢ p 是降维和升维权重。 Conv1D 表示用于时空建模的一维卷积，它作用于时间维度。请注意，为简便起见，本节省略了重塑操作，但如图 3 b所示。

接下来，对于时间差异建模，我们从当前帧中减去前一帧的特征，然后采用二维空间卷积来自动学习相邻特征差异的有用信息。形式上，给定第 t 帧的输入块符元 𝐳 v , t ，

其中 Conv2D 表示二维空间卷积。对于第一帧，我们将它的特征差异设置为零。

最后，可以通过将两种时间特征融合在一起获得TED-Adapter的输出。此外，应用残差求和以保留输入中的信息：

其中 𝐙 D = { [ 𝐎 , 𝐳 D , t ] } t = 1 T ，而 O 是一个与 𝐜 t 形状相同的零矩阵。

除非另有说明，否则TED-Adapter默认放置在多头自注意力机制 (MHSA) 之前。通过结合时间增强和时间差异操作，所提出的TED-Adapter可以捕获时空特征和局部精细运动模式，这两者对于这项任务都至关重要。

文本适配器：在动作识别中，描述动作的文本标签通常简短而简洁，强调动作本身，例如“展开某物”和“跨栏”。然而，我们观察到，正如图 2 所示，仅使用CLIP的文本编码器可能无法有效地区分这种标签文本特征。为解决这个问题，我们在文本分支中引入了适配器，以学习动作标签更好的语义表示。我们直接使用了基本的适配器 (Houlsby et al. 2019) 结构，如图 3 b所示。具体来说，给定文本适配器层 𝐳 l 的输入文本符元，我们执行文本适配器，如下所示：

其中 Act 表示非线性激活函数，这里我们使用GeLU。

默认情况下，文本适配器插入到Transformer层的Feed-Forward Networks (FFN)之前。通过结合文本适配器，模型可以增强其对动作标签的理解，捕捉更多具有区分性的语义信息。这使得文本和视觉表示之间的对齐得到改进，从而实现更准确和有效的视频动作识别。

多任务解码器

如前所述，我们观察到，当使用CLIP的多模态框架时，仅仅依靠对比学习的性能不如配置等效的单模态框架。为了解决这个问题，我们提出一个配备四个不同学习任务的多任务解码器，每个任务对应一个单独的头，如图 3 a的右侧所示。这种方法旨在利用多个任务约束来提高多模态框架的联合表示能力。

多模态对比学习头 (对比学习)。这是CLIP最初的训练目标。为了将成对的视频表示 v 和标签表示 w 彼此拉近，在两种模态之间定义了对称相似性：

其中 cos 表示余弦相似度， τ 是温度参数， B 是训练对的数量。真实值对于负样本对定义为 0，对于正样本对定义为 1。我们使用 Kullback-Leibler 散度作为视频文本对比损失来优化这个头，作为 ActionCLIP。

当模型训练完毕后，它将准备好进行零样本分类。在实践中，文本输入可以提示为“ 一个关于 < 𝐲 ^ > 的视频 ”，其中 𝐲 ^ 是 C 类的类别名称。预测特定视频 V 的 𝐲 ^ 的过程是找到通过以下公式计算的最高相似度分数：

交模态分类头 (CMC)。由于动作标签是在给定集合 ( C 类) 中预定义的，我们可以计算每次迭代的完整标签特征集，使我们能够进行跨模态特征分类。在这项工作中，我们采用了一种直接的无参数跨模态融合方法，它直接使用公式 ( 11 ) 计算余弦相似度。请注意，它与等式不同。 ( 10 )，它考虑训练批次内的视频文本匹配，并且不能覆盖所有动作标签的表示。获得这些相似度后，目标是确保视频的表示与其对应标签的文本表示相似，而不是与其他类别的文本表示相似。为此，我们巧妙地将问题转化为一个 1-in- C 分类任务，并使用交叉熵损失向跨模态相似度分数添加分类约束。

跨模态掩码语言建模头 (CMLM)。与主要处理图像文本配对数据的原始 CLIP 不同，我们的动作标签主要关注动词。为了增强 CLIP 的文本分支以更好地表示与动作相关的词语并帮助学习文本适配器，我们引入了一个额外的 CMLM 头，它促使文本分支预测来自其他文本和视频符元的掩码词语。具体来说，给定逐帧视频特征 [ 𝐯 1 , ⋯ , 𝐯 T ] 和文本特征 𝐳 l ( L l ) ，我们执行交叉注意操作以获得跨模态特征。由于文本数据量有限，直接学习该注意力层的参数可能具有挑战性。我们解决这个问题的方法是使用文本分支中最终Transformer层的参数来初始化该注意力层的参数，然后冻结这些参数，并在Transformer层的FFN之前添加公式( 9 )所示的文本适配器。然后我们只学习这个文本适配器的参数。此过程可以表示为：

其中 CA 、 LN 和 MLP 分别表示交叉注意力层、层归一化和多层感知器层。然后，我们附加一个BERT MLM head (Devlin et al. 2018) 来预测掩码词，使用交叉熵损失，如图 3 a所示。

视频分类头 (VC)。此外，我们在视频分支中引入了一个简单的分类头，以增强视频特征中不同类别之间的区分度。给定视频特征 v ，我们直接附加一个线性层进行分类，并使用交叉熵损失进行训练。重要的是，通过包含这个分类头，我们可以直接使用它的输出进行监督分类任务。对于零样本实验，我们仍然采用公式( 11 )。添加此分类头使模型能够更有效地学习区分不同动作类别之间的视频特征。

总之，通过引入这四个学习任务，我们利用了更丰富的监督信号，引导模型更好地对齐视觉和文本模态，同时捕捉语义信息的各个方面。这种多任务方法不仅减轻了监督学习的性能差异，而且保留了CLIP卓越的泛化能力。

Method	Pre-training	Tunable Param	#Frames	Top-1(%)	Top-5(%)	GFLOPs	Zero-shot
Full Finetuning
Swin-B (CVPR’22) (Liu et al. 2022)	IN-21k	88	32 × 4 × 3	82.7	95.5	282	✗
MViTv2-B (CVPR’22) (Li et al. 2022b)	✗	52	32 × 5 × 1	82.9	95.7	225	✗
Uniformer V2-B/16 (ICLR’23) (Li et al. 2022a)	CLIP-400M	115	8 × 3 × 4	85.6	97.0	154
ActionCLIP-B/16 (arXiv’21) (Wang et al. 2023)	CLIP-400M	142	32 × 10 × 3	83.8	96.2	563	✓
X-CLIP-B/16 (ECCV’22) (Ni et al. 2022)	CLIP-400M	132	16 × 4 × 3	84.7	96.8	287	✓
BIKE-L/14 (CVPR’23) (Wu et al. 2023)	CLIP-400M	230	16 × 4 × 3	88.1	97.9	830	✓
S-ViT-B/16 (CVPR’23) (Zhao et al. 2023)	CLIP-400M	-	16 × 3 × 4	84.7	96.8	340	✗
ILA-ViT-L/14 (ICCV’23) (Tu et al. 2023)	CLIP-400M	-	8 × 4 × 3	88.0	98.1	673	✓
PEFT: unimodal visual framework (frozen CLIP)
EVL-B/16 (ECCV’22) (Lin et al. 2022b)	CLIP-400M	86	8 × 1 × 3	82.9	-	444	✗
ST-Adapter-B/16 (NeurIPS’22) (Pan et al. 2022)	CLIP-400M	7	8 × 1 × 3	82.0	95.7	148	✗
ST-Adapter-B/16 (NeurIPS’22) (Pan et al. 2022)	CLIP-400M	7	32 × 1 × 3	82.7	96.2	607	✗
AIM-B/16 (ICLR’23) (Yang et al. 2023)	CLIP-400M	11	8 × 1 × 3	83.9	96.3	202	✗
AIM-B/16 (ICLR’23) (Yang et al. 2023)	CLIP-400M	11	32 × 1 × 3	84.7	96.7	809	✗
DUALPATH-B/16 (CVPR’23) (Park, Lee, and Sohn 2023)	CLIP-400M	10	32 × 1 × 3	85.4	97.1	237	✗
PEFT: multimodal framework (frozen CLIP)
STAN-conv-B/16 (CVPR’23) (Liu et al. 2023)	CLIP-400M	-	8 × 1 × 3	83.1	96.0	238	✓
Vita-CLIP B/16 (CVPR’23) (Wasim et al. 2023)	CLIP-400M	39	8 × 4 × 3	81.8	96.0	97	✓
Vita-CLIP B/16 (CVPR’23) (Wasim et al. 2023)	CLIP-400M	39	16 × 4 × 3	82.9	96.3	190	✓
M 2 -CLIP -B/16	CLIP-400M	16	8 × 4 × 3	83.4	96.3	214	✓
M 2 -CLIP -B/16	CLIP-400M	16	16 × 4 × 3	83.7	96.7	422	✓
M 2 -CLIP -B/16	CLIP-400M	16	32 × 4 × 3	84.1	96.8	842	✓

表1： K400上的性能比较。每视图GFLOPs已报告。 #Frame 表示帧 × 裁剪 × 剪辑。

Model	#Frames	Top-1(%)	Top-5(%)
Full Finetuning
ViViT-L (Arnab et al. 2021)	16×1×3	65.4	89.8
Mformer-B (Patrick et al. 2021)	16×1×3	66.5	90.1
MViTv2-B (Li et al. 2022b)	32×1×3	70.5	92.7
ILA-ViT-B/16 (Tu et al. 2023)	8×4×3	65.0	89.2
ILA-ViT-B/16 (Tu et al. 2023)	16×4×3	66.8	90.3
Uniformer V2-B/16 (Li et al. 2022a)	32×1×3	70.7	93.2
S-ViT-B/16 (Zhao et al. 2023)	16×2×3	69.3	92.1
PEFT: unimodal visual framework (frozen CLIP)
ST-Adapter-B/16 (Pan et al. 2022)	8×1×3	67.1	91.2
ST-Adapter-B/16 (Pan et al. 2022)	32×1×3	69.5	92.6
EVL-ViT-B/16 (Lin et al. 2022b)	16×1×3	61.7	-
DUALPATH-B/16 (Park, Lee, and Sohn 2023)	32×1×3	70.3	92.9
AIM-ViT-B/16 (Yang et al. 2023)	8×1×3	66.4	90.5
AIM-ViT-B/16 (Yang et al. 2023)	32×1×3	69.1	92.2
PEFT: multimodal framework (frozen CLIP)
STAN-conv-B/16 (Liu et al. 2023)	8×1×3	65.2	90.5
Vita-CLIP-B/16 (Wasim et al. 2023)	16×-	48.7	-
M 2 -CLIP -B/16	8×1×3	66.9	90.1
M 2 -CLIP -B/16	32×1×3	69.1	91.8

表2： SSv2上的性能比较。

实验

实验设置

我们评估我们的M 2 -CLIP在两个主要数据集中的监督学习：Kinetics-400 (K400) (Kay et al. 2017) 和Something-Something-V2 (SSv2) (Goyal et al. 2017) 。对于泛化评估，我们在UCF101 (Soomro, Zamir, and Shah 2012) 和HMDB51 (Kuehne et al. 2011) 上测试我们的模型。我们采用基于ViT-B/16的CLIP作为我们的骨干网络，并在训练和推理过程中使用具有8、16或32帧的稀疏帧采样策略。

完全监督实验

我们分别在表 1 和表 2 中展示了我们在K400和SSV2上的结果，并将我们的方法与在各种迁移方法下训练的SOTA进行了比较，包括完全微调、来自冻结CLIP的单模态和多模态PEFT。

在K400上，我们的8帧M 2 -CLIP-B/16模型超过了由ImageNet (Deng et al. 2009) 预训练的模型，在可学习参数和计算需求更少的情况下实现了更高的性能。与具有相同ViT-B/16骨干网络的端到端微调CLIP模型相比，我们的方法展示了可比的结果。仅用11%的可调整参数，我们就超过了ActionCLIP (Wang et al. 2023) 的结果（84.1%对83.8%）。此外，我们的方法与最新的方法（如X-CLIP (Ni et al. 2022) 和S-ViT (Zhao et al. 2023) ）具有竞争力，但可学习参数要少得多。此外，虽然我们的结果与BIKE (Wu et al. 2023) 和ILA (Tu et al. 2023) 取得的领先性能相比略逊一筹，但重要的是要注意，它们采用了更大的网络架构（ViT-L），并且可调参数数量是我们模型的14倍。与单模态PEFT方法相比，我们的方法取得了相当甚至更好的结果。例如，我们的8帧M 2 -CLIP-B/16模型比8帧ST-Adapter-B/16 (Pan et al. 2022) 提高了1.4%。值得注意的是，虽然单模态方法在监督环境下表现出高性能，但它们缺乏对零样本泛化的支持。相反，我们的方法在与它们进行比较时取得了具有竞争力的结果，并展现出强大的泛化能力。最后，与多模态PEFT方法相比，我们的方法取得了更好的结果。请注意，Vita-CLIP (Wasim et al. 2023) 是一种基于多模态提示的方法，而我们使用的是适配器。很明显，我们只用41%的可训练参数就取得了更高的性能。

M2-CLIP：用于视频动作识别的多模态、多任务适应框架

正文

摘要

引言

相关工作

全微调视频动作识别

视频动作识别中的高效参数微调 (PEFT)

方法

架构概述

视觉和文本适配器

多任务解码器

实验

实验设置

完全监督实验

请到「今天看啥」查看全文