本文介绍我们在视频行为理解领域的一篇新工作,该工作发表在AAAI 2024(
Oral
)《A Multimodal, Multi-Task Adapting Framework for Video Action Recognition》。
论文链接:
https://ojs.aaai.org/index.php/AAAI/article/download/28361/28707
代码地址:
https://github.com/sallymmx/m2clip
1 引言
近年来,大规模视觉-语言预训练模型(VLM)如CLIP、ALIGN和Florence的出现引起了极大的关注。因此,研究人员积极探索有效地将这些大型模型适应于特定领域的方法。本文重点研究如何将CLIP模型转移到视频动作识别领域,强调其在推动该领域进步中的重要作用。
毫无疑问,将CLIP强大的知识转移到新领域具有巨大的潜力,因为它具备强大的表示能力和出色的泛化性能。最直观的方法是直接在CLIP的图像编码器上添加时间建模,并微调整个网络。然而,微调的计算成本高昂,且可能影响CLIP原有的泛化能力。随着参数高效微调(PEFT)的出现,研究人员开始探索冻结CLIP的原始参数,并引入各种适配器或提示词,仅训练新添加的参数。值得注意的是,PEFT促使人们重新评估传统的单模态视频分类框架。通过直接利用CLIP的视觉分支并结合添加的适配器,再在末端添加线性分类层,这些方法在监督场景中表现出色。然而,需注意的是,在这些方法中排除了文本分支,导致CLIP的泛化能力丧失,而这种能力正是CLIP的核心吸引力之一。
PEFT也可以应用于多模态CLIP转移框架,直接影响视觉分支或文本分支,甚至同时影响这两个分支。这显著提高了效率并减少了可学习参数的数量。然而,冻结多模态骨干网络会导致监督精度下降,与单模态框架的性能相比存在差距,即使结合了强大的单模态适配器也是如此。我们通过实验验证了这一观察,如图1左所示。使用ST-Adapter作为单模态框架的代表,我们引入了CLIP的文本分支,将ST-Adapter转变为多模态框架。正如预期的那样,通过冻结CLIP参数并学习适配器,我们确实观察到了监督性能的明显下降。其原因在于CLIP的文本分支缺乏足够的判别特征,特别是对动作动词的判别特征,如图1右所示。此外,与CLIP原始训练集相比,在相对较小的数据集上训练时,CLIP自身的对比学习损失使得视频的判别特征难以学习,尤其是在文本数据稀少的情况下。
图1 单模态vs多模态 (a)性能比较。请注意,ST-Adapter 无法进行Zero-shot预测,因此在Zero-shot UCF101 和 HMDB51 中没有结果。(b) ST-Adapter+text的前40个SSv2标签特征与本方法的同样的40个标签特征的类间相关图。颜色越红,特征耦合越强。我们的M2-CLIP提高了四个数据集的性能并降低了相关性。
为了打破有监督学习和泛化能力的边界,我们提出了一种新的多模态、多任务CLIP视频转移框架,称为M2-CLIP。首先,我们专注于多模态适配以构建更强大的架构,在文本和视觉分支中都添加了适配器。具体而言,为了更好地表示视频的时间信息,我们设计了一种新颖的TED-Adapter,能够同时整合全局时间增强和局部时间差分建模。此外,我们在文本分支中引入了一种简单的适配器,以捕捉与动作标签相关的附加语义信息,从而显著改善了第一个问题。其次,我们设计了一个多任务解码器,以挖掘更强的学习潜力。解码器由四个部分组成:(a) 原始的对比学习头,旨在对齐视频-文本对的表示。(b) 跨模态分类头,可以突出跨模态特征的判别能力。(c) 在文本分支的最后一层设计了跨模态掩码语言模型头,促进视觉特征聚焦于动作动词的识别。(d) 在视觉分支的末端引入视觉特征分类器,以便区分不同类别的视觉特征。
图2:性能比较:zero-shot与有监督精度。圆圈大小表示可调参数的数量,其中性能较好的模型位于右上侧。可以看到我们的 M2-CLIP以极少的可调参数实现了最佳效果。
综上所述,我们的贡献有三点:1)我们提出了一种新颖的多模态、多任务适配框架,将强大的CLIP模型转移到视频动作识别任务中。该方法在确保最先进的零样本可转移性的同时,实现了强大的监督性能,如图2所示。2)我们设计了一种新的视觉TED-Adapter,执行时间增强和差分建模,以增强视频编码器的表示能力。同时,我们为文本编码器引入了适配器,使标签表示可学习和可调节。3)我们引入了一个多任务解码器,以提高整个框架的学习能力,巧妙地在监督性能和泛化能力之间实现平衡。
2 方法
如图3所示,我们的框架由三个关键组件组成:视频编码器、文本编码器和多任务解码器。
图3 整体框架图
形式上, 框架的输入为视频
, 其空间尺寸为
, 包含
帧采样帧, 以及预定义标签集
中的文本标签
。
视频编码器:
由
层 Transformer 层
和相应的视觉 TED-Adapters
组成。输入的第
帧被划分为不重叠的补丁
, 其中
。然后, 这些补丁被投影到补丁嵌入
, 并在前面加上一个可学习的类标记
和位置编码
。帧级输入构建如下:
如果在每个 Transformer 层之前放置视觉适配器, 输入将按顺序处理为:
为了获得最终的视频表示
, 最后一层 Transformer 层的类标记
被投影到一个通用的视频语言
空间, 通过
, 并沿时间维度进行平均,
语言编码器:
同样,
由
层 Transformer 层
和相应的文本适配器
组成。输入的单词被标记化并投影到单词嵌入
, 其中
是文本长度。编码器的输入构建如下:
以在每个 Transformer 层之前插入文本适配器为例, 每层的特征获取如下:
标签
的最终 VL 空间文本表示
通过
获得, 其中
是
的最后一个标记,
是投影层。
解码器
: 一旦获得两个编码器的输出特征,它们将被输入到我们专门设计的多任务解码器中。在训练过程中,解码器的作用是对编码器生成的特征表示施加约束,促进两个模态之间的语义对齐,并使不同类别的特征能够区分开来。模型训练完成后,解码器非常灵活,既能生成用于监督学习的分类得分,又能进行零样本分类。解码器结构的详细设计将在下一节中详细阐述。
2.1 视觉和文本适配器
为了更好地将CLIP转移到这个任务中,并增强动作动词标签的语义表示,我们为视觉和文本分支引入了适配器,以改善它们各自的表示能力。
图4 视频TED-Adapter与文本Adapter
视频 TED-Adapter:
将CLIP的图像分支适配到视频分支需要额外的时间建模模块,可以从两个角度进行:全局时间增强和局部时间差异建模。前者是直观的全局时间聚合,被称为时空特征,其中时间注意力或时间卷积应用于多个帧的特征,以聚合相似的动作主体。这在CLIP的转移中已经被广泛探索。后者是短期帧间特征差异学习,旨在捕捉相邻帧之间的局部运动模式和动态。这种特征在早期的计算效率卷积算法中有所提及,但在CLIP的转移中尚未探索。为了在统一结构中探索这两种时间建模,我们设计了一种新的 TED-Adapter,同时学习
T
emporal
E
nhancements 和时间
D
ifferences。
如图4所示, 我们首先采用1D时间卷积进行时间特征增强。对于包括类标记和补丁标记在内的TEDAdapter层的输入
, 我们进行以下操作:
其中
和
是下投影和上投影权重。Conv1D 表示在时间维度上进行时空建模的1D卷积。请注意, 此部分为了简化省略了重塑操作, 但在图4中显示了重塑操作。
接下来, 对于时间差异建模, 我们从当前帧的特征中减去前一帧的特征, 然后使用2D空间卷积自动学习相邻特征差异中的有用信息。形式上, 给定第
帧的输入补丁
,
其中 Conv2D 表示2D空间卷积。对于第一帧,我们将其特征置为全零张量,即
。
最终, 通过融合这两种时间特征, 可以获得TED-Adapter的输出。此外, 应用残差求和以保留输入中的信息: