专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

AAAI 2024 Oral｜打破边界：利用CLIP的多任务多模态视频行为识别方法

极市平台 · 公众号 · · 2024-07-09 22:00

正文

↑ 点击蓝字关注极市平台

作者丨王蒙蒙@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/704566210

编辑丨极市平台

极市导读

本文提出了一种新颖的多模态、多任务适配框架，将强大的CLIP模型转移到视频动作识别任务中。该方法在确保最先进的零样本可转移性的同时，实现了强大的监督性能。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍我们在视频行为理解领域的一篇新工作，该工作发表在AAAI 2024（ Oral ）《A Multimodal, Multi-Task Adapting Framework for Video Action Recognition》。

论文链接： https://ojs.aaai.org/index.php/AAAI/article/download/28361/28707

代码地址： https://github.com/sallymmx/m2clip

1 引言

近年来，大规模视觉-语言预训练模型（VLM）如CLIP、ALIGN和Florence的出现引起了极大的关注。因此，研究人员积极探索有效地将这些大型模型适应于特定领域的方法。本文重点研究如何将CLIP模型转移到视频动作识别领域，强调其在推动该领域进步中的重要作用。

毫无疑问，将CLIP强大的知识转移到新领域具有巨大的潜力，因为它具备强大的表示能力和出色的泛化性能。最直观的方法是直接在CLIP的图像编码器上添加时间建模，并微调整个网络。然而，微调的计算成本高昂，且可能影响CLIP原有的泛化能力。随着参数高效微调（PEFT）的出现，研究人员开始探索冻结CLIP的原始参数，并引入各种适配器或提示词，仅训练新添加的参数。值得注意的是，PEFT促使人们重新评估传统的单模态视频分类框架。通过直接利用CLIP的视觉分支并结合添加的适配器，再在末端添加线性分类层，这些方法在监督场景中表现出色。然而，需注意的是，在这些方法中排除了文本分支，导致CLIP的泛化能力丧失，而这种能力正是CLIP的核心吸引力之一。

PEFT也可以应用于多模态CLIP转移框架，直接影响视觉分支或文本分支，甚至同时影响这两个分支。这显著提高了效率并减少了可学习参数的数量。然而，冻结多模态骨干网络会导致监督精度下降，与单模态框架的性能相比存在差距，即使结合了强大的单模态适配器也是如此。我们通过实验验证了这一观察，如图1左所示。使用ST-Adapter作为单模态框架的代表，我们引入了CLIP的文本分支，将ST-Adapter转变为多模态框架。正如预期的那样，通过冻结CLIP参数并学习适配器，我们确实观察到了监督性能的明显下降。其原因在于CLIP的文本分支缺乏足够的判别特征，特别是对动作动词的判别特征，如图1右所示。此外，与CLIP原始训练集相比，在相对较小的数据集上训练时，CLIP自身的对比学习损失使得视频的判别特征难以学习，尤其是在文本数据稀少的情况下。

图1 单模态vs多模态（a）性能比较。请注意，ST-Adapter 无法进行Zero-shot预测，因此在Zero-shot UCF101 和 HMDB51 中没有结果。（b） ST-Adapter+text的前40个SSv2标签特征与本方法的同样的40个标签特征的类间相关图。颜色越红，特征耦合越强。我们的M2-CLIP提高了四个数据集的性能并降低了相关性。

为了打破有监督学习和泛化能力的边界，我们提出了一种新的多模态、多任务CLIP视频转移框架，称为M2-CLIP。首先，我们专注于多模态适配以构建更强大的架构，在文本和视觉分支中都添加了适配器。具体而言，为了更好地表示视频的时间信息，我们设计了一种新颖的TED-Adapter，能够同时整合全局时间增强和局部时间差分建模。此外，我们在文本分支中引入了一种简单的适配器，以捕捉与动作标签相关的附加语义信息，从而显著改善了第一个问题。其次，我们设计了一个多任务解码器，以挖掘更强的学习潜力。解码器由四个部分组成：(a) 原始的对比学习头，旨在对齐视频-文本对的表示。(b) 跨模态分类头，可以突出跨模态特征的判别能力。(c) 在文本分支的最后一层设计了跨模态掩码语言模型头，促进视觉特征聚焦于动作动词的识别。(d) 在视觉分支的末端引入视觉特征分类器，以便区分不同类别的视觉特征。

图2：性能比较：zero-shot与有监督精度。圆圈大小表示可调参数的数量，其中性能较好的模型位于右上侧。可以看到我们的 M2-CLIP以极少的可调参数实现了最佳效果。

综上所述，我们的贡献有三点：1）我们提出了一种新颖的多模态、多任务适配框架，将强大的CLIP模型转移到视频动作识别任务中。该方法在确保最先进的零样本可转移性的同时，实现了强大的监督性能，如图2所示。2）我们设计了一种新的视觉TED-Adapter，执行时间增强和差分建模，以增强视频编码器的表示能力。同时，我们为文本编码器引入了适配器，使标签表示可学习和可调节。3）我们引入了一个多任务解码器，以提高整个框架的学习能力，巧妙地在监督性能和泛化能力之间实现平衡。

2 方法

如图3所示，我们的框架由三个关键组件组成：视频编码器、文本编码器和多任务解码器。

形式上, 框架的输入为视频 , 其空间尺寸为 , 包含帧采样帧, 以及预定义标签集中的文本标签。

视频编码器：由层 Transformer 层和相应的视觉 TED-Adapters 组成。输入的第帧被划分为不重叠的补丁 , 其中。然后, 这些补丁被投影到补丁嵌入 , 并在前面加上一个可学习的类标记和位置编码。帧级输入构建如下:

如果在每个 Transformer 层之前放置视觉适配器, 输入将按顺序处理为：

为了获得最终的视频表示 , 最后一层 Transformer 层的类标记被投影到一个通用的视频语言空间, 通过 , 并沿时间维度进行平均,

语言编码器: 同样, 由层 Transformer 层和相应的文本适配器组成。输入的单词被标记化并投影到单词嵌入 , 其中是文本长度。编码器的输入构建如下:

以在每个 Transformer 层之前插入文本适配器为例, 每层的特征获取如下:

标签的最终 VL 空间文本表示通过获得, 其中是的最后一个标记, 是投影层。

解码器 : 一旦获得两个编码器的输出特征，它们将被输入到我们专门设计的多任务解码器中。在训练过程中，解码器的作用是对编码器生成的特征表示施加约束，促进两个模态之间的语义对齐，并使不同类别的特征能够区分开来。模型训练完成后，解码器非常灵活，既能生成用于监督学习的分类得分，又能进行零样本分类。解码器结构的详细设计将在下一节中详细阐述。

2.1 视觉和文本适配器

为了更好地将CLIP转移到这个任务中，并增强动作动词标签的语义表示，我们为视觉和文本分支引入了适配器，以改善它们各自的表示能力。

视频 TED-Adapter： 将CLIP的图像分支适配到视频分支需要额外的时间建模模块，可以从两个角度进行：全局时间增强和局部时间差异建模。前者是直观的全局时间聚合，被称为时空特征，其中时间注意力或时间卷积应用于多个帧的特征，以聚合相似的动作主体。这在CLIP的转移中已经被广泛探索。后者是短期帧间特征差异学习，旨在捕捉相邻帧之间的局部运动模式和动态。这种特征在早期的计算效率卷积算法中有所提及，但在CLIP的转移中尚未探索。为了在统一结构中探索这两种时间建模，我们设计了一种新的 TED-Adapter，同时学习 T emporal E nhancements 和时间 D ifferences。

如图4所示, 我们首先采用1D时间卷积进行时间特征增强。对于包括类标记和补丁标记在内的TEDAdapter层的输入 , 我们进行以下操作:

其中和是下投影和上投影权重。Conv1D 表示在时间维度上进行时空建模的1D卷积。请注意, 此部分为了简化省略了重塑操作, 但在图4中显示了重塑操作。

接下来, 对于时间差异建模, 我们从当前帧的特征中减去前一帧的特征, 然后使用2D空间卷积自动学习相邻特征差异中的有用信息。形式上, 给定第帧的输入补丁 ,

其中 Conv2D 表示2D空间卷积。对于第一帧，我们将其特征置为全零张量，即。

最终, 通过融合这两种时间特征, 可以获得TED-Adapter的输出。此外, 应用残差求和以保留输入中的信息:

AAAI 2024 Oral｜打破边界：利用CLIP的多任务多模态视频行为识别方法

正文

1 引言

2 方法

2.1 视觉和文本适配器

请到「今天看啥」查看全文