专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ECCV 2024｜美团提出UniMD：语言描述视频定位与动作检测的大一统

极市平台 · 公众号 · · 2024-08-05 22:00

正文

↑ 点击蓝字关注极市平台

作者丨CVer粉丝投稿

来源丨CVer

编辑丨极市平台

极市导读

本文提出了一个统一的架构UniMD，它将两项任务的输入，即TAD的动作或MR的事件，转换到一个共同的嵌入空间，并利用两个新颖的查询依赖解码器（生成统一的分类得分和时间段输出。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

论文： https://arxiv.org/abs/2404.04933

代码： https://github.com/yingsen1/UniMD

摘要

时序动作检测（Temporal Action Detection，TAD）专注于检测预定义的动作，而时刻检索（Moment Retrieval，MR）则旨在识别未剪辑视频中由开放式自然语言描述的事件。尽管它们关注不同的事件，我们观察到它们之间有显著的联系。例如，MR中的大多数描述涉及TAD中的多个动作。在本文中，我们旨在探讨TAD和MR之间的潜在协同作用。首先，我们提出了一种统一的架构，称为统一时刻检测（Unified Moment Detection，UniMD），用于TAD和MR。它将两项任务的输入，即TAD的动作或MR的事件，转换到一个共同的嵌入空间，并利用两个新颖的查询依赖解码器（query-dependent decoders）生成统一的分类得分和时间段输出。其次，我们探索了两种任务融合学习方法——预训练和共同训练，以增强TAD和MR之间的互惠效益。大量实验表明，所提出的任务融合学习方案使两项任务能够互相帮助，并超过单独训练的对手。令人印象深刻的是，UniMD在三个配对数据集Ego4D、Charades-STA和ActivityNet上取得了最先进的结果。

问题引入

时序动作检测（Temporal Action Detection，TAD）和时刻检索（Moment Retrieval，MR）是两个相似的任务，旨在识别未剪辑视频中特定事件及其对应的时间段。TAD专注于识别与单一动作相关的时间段，而MR则旨在识别与自然语言描述相符合的时间段。尽管这两个任务之间有显著的联系，例如，MR中的大多数自然语言描述是TAD中多个动作的组合。然而，大多数现有工作 [7, 23, 25, 53, 59, 61] 将TAD和MR视为两个独立的任务，为每个任务使用单独的模型。在本文中，我们旨在回答一个问题： 通过单一模型将两项任务融合，它们是否能够互相受益？

图2. TAD和MR任务的互惠效益示意图。MR任务以绿色显示，TAD任务以蓝色显示。MR中的事件帮助建立动作之间的依赖关系，例如(a)同时发生，和(b)顺序发生。TAD中的实例可以(c)作为负样本，并且(d)为MR提供更多的事件。

将TAD和MR融合在一起在两个方面具有重要意义：不仅可以降低部署成本，还具有提升整体性能的潜力。通过仔细探索覆盖这两项任务的视频（例如Charades [42]和Charades-STA [14]），我们识别出它们之间的三种潜在互惠效益：(i) MR中的事件可以表达多个动作的关系和顺序，从而建立动作之间的依赖关系。例如，在图2a中，事件“人物被毯子盖住后醒来”暗示“用毯子盖住”和“醒来”同时发生。在图2b中，事件“人物坐下来查看一本书”表明“在笔记本上工作”发生在“坐在桌子旁”之后。(ii) TAD中的动作可以作为完整事件的分解，为MR任务提供更细致的监督。如图2c所示，基于“放置”和“取走”相反的语义，动作“把东西放在桌子上”可以作为事件“人物从袋子里取出食物”的负样本。此外，如图2d所示，TAD中的所有动作都可以视为MR的特殊事件，赋予MR更多正样本。(iii) TAD和MR的融合增加了训练实例的数量。例如，Charades和Charades-STA每个视频平均分别有6.8个动作实例和2.4个事件实例。因此，TAD可以为MR增加超过200%的事件实例数量，而MR可以为TAD提供额外的16,000个动作描述。

图1. 我们提出的UniMD模型能够同时执行TAD和MR任务。在使用部分训练数据进行共同训练时，它甚至可以达到优于专用模型的性能，例如在MR任务中使用25%的训练数据和在TAD任务中使用50%的训练数据。

为了研究TAD和MR之间的潜在协同作用，我们提出了一种新的任务表述，称为时刻检测（Moment Detection，MD），旨在同时解决TAD和MR任务，如图1a所示。对于MD，我们设计了一个任务统一架构，称为 统一时刻检测网络（Unified network for Moment Detection，UniMD） ，并采用 任务融合学习方法 ，以增强两个任务的性能：

(1) 任务统一架构。 任务集成在处理输入不一致性（即TAD中仅有视频作为输入，而MR中同时有视频和事件作为输入）和动作范围差异（即TAD专注于预定义动作，而MR处理自然语言描述的事件）方面提出了挑战。为了解决这个问题，我们建立了一个统一的任务输入和输出的范式。对于输入，我们采用开放式查询格式，如“[动作/事件]的视频”来描述两个任务中的动作和事件。然后，这些查询通过预训练的图像-文本模型（如CLIP [39]）转换为文本嵌入，从而本质上建立了动作或事件之间的关系。对于输出，我们提出了一个查询依赖的分类头（query-dependent classification head）和一个查询依赖的回归头（query-dependent regression），以为每个查询生成统一的分类得分和时间边界。分类头使用文本嵌入作为分类器来生成分类得分。同时，回归头将文本嵌入转换为卷积核，以预测与查询相关的时间边界。

(2) 任务融合学习。 为了增强TAD和MR之间的协同作用，我们探索了任务融合学习以促进它们的相互影响。具体来说，我们考察并讨论了预训练和共同训练在任务融合学习中的影响。此外，我们引入了两种共同训练方法： 同步任务采样和交替任务采样 。同步任务采样优先选择包含两项任务的视频样本，确保每次训练迭代都包括这两项任务。相比之下，交替任务采样在每次迭代时基于交替任务更新网络。在这些方法中，采用同步任务采样的共同训练有效地增强了协同作用，并为每项任务带来了显著的改进。如图1b所示，提出的共同训练模型能够比专用模型取得更好的结果，即使仅使用部分训练数据，例如MR的25%训练视频和TAD的50%训练视频。 这表明，相互受益不仅仅来源于注释数量的增加，而是来自共同训练的增强效果。

本文的核心贡献包括：

(i) 我们提出了一个统一框架，称为UniMD，旨在同时解决TAD和MR任务。这个框架通过继承CLIP的文本编码器来编码查询，并通过查询依赖的头部预测与动作或事件相关的时间边界，从而连接动作和事件。
(ii) 据我们所知，我们是首次利用任务融合学习来探索这两项任务是否能互相帮助，并提出了一种有效的共同训练方法以增强它们的协同作用，这为基于语言的大型视频模型（如LLaMA-vid [24]）在动作/事件检测任务上的训练提供了宝贵的见解和经验。
(iii) 大量实验表明，UniMD在各种基准测试中实现了最先进的性能：Ego4D-MQ上为23.25%的mAP，Ego4D-NLQ上为14.16%的R1@30，Charades-STA上为63.98%的R1@50，以及ActivityNet上为60.29%的mAP@50。

实现细节

统一的任务表述：时刻检测（Moment Detection，MD）

TAD 侧重于在未剪辑视频中识别预定义动作类别的时间段。MR 旨在预测由开放式自然语言描述的事件的时间段。时刻检测MD能够识别近闭集动作和开放式事件的时间段。

任务统一架构

在本节中，我们通过在一个统一框架内整合TAD和MR任务，研究它们之间的潜在协同作用。为此，我们提出了一个统一的网络，称为统一时刻检测网络（Unified network for Moment Detection，UniMD）。它能够有效地协调这两个任务，并促进它们的互惠进步。

如图3所示，我们首先统一了TAD和MR的输入接口。具体来说，我们设计了一个统一的查询q来描述每个视频中需识别的动作类别和开放式事件。对于TAD，我们利用动作名称或其变体（例如“[动作名称]的视频”）作为输入查询。对于MR，我们直接使用其自然语言描述作为输入查询。如图3所示，所提出的统一模型受到目标检测 [29, 45] 的启发，包含两个编码器：一个视觉编码器Φv-enc和一个文本编码器Φt-enc，以及两个解码器：一个查询依赖的分类头Φcls和一个查询依赖的回归头Φreg，其中Φv-enc表示视觉编码器和特征金字塔网络（FPN）的组合。两个编码器分别编码文本嵌入和视觉嵌入，而解码器基于文本和视觉嵌入预测与动作或事件对应的置信度和时间段。该统一模型被设计为无锚点的单阶段时序检测器。其设计新颖性主要在于 两个查询依赖的解码器（ query-dependent decoders ）。

总的来说，结合图3，UniMD的流程可以理解为：该网络旨在通过将每个TAD类别视为一个独立的自然语言查询来处理时刻检测。视频特征被输入到视觉编码器和BiFPN中，以提取多尺度特征。然后，文本嵌入被传输到解码器，计算每个时间步长的前景置信度以及动作的开始和结束时间。分类头利用文本嵌入作为分类器，而回归头则利用文本嵌入的转换作为卷积核。

编码器

文本编码器。为了在TAD的动作名称和MR的自然语言描述之间建立对应关系，我们使用预训练的图文对齐模型中的文本编码器（例如我们使用的CLIP [39]），来提取输入查询的文本嵌入。CLIP通常在大量的图像-标题对数据集上训练，并在开放词汇的图像分类和目标检测 [13, 65] 中表现出巨大的成功。在这里，我们将CLIP集成到视频时刻检测中，提供了两大内在优势。首先，它自然地建立了动作名称和自然语言描述之间的连接。其次，它使动作/事件检测具有开放性，即超越训练阶段中的动作/描述。

视觉编码器。视觉编码器接收一系列视频特征X作为输入，并通过多个包含下采样操作的块处理这些特征，从而生成一系列多尺度表示。不同于以往在视频理解中使用Transformer [17,30,48] 的工作，我们的方法采用ConvNext [32] 块作为视觉编码器的主要组件。我们采用纯卷积架构而不使用自注意力机制，因为我们认为，长时间的时序信息对于局部动作/事件检测并不是至关重要的。相反，卷积操作可以更有效地强调邻近帧的信息，从而更有效地捕捉运动模式和时间依赖性。结合FPN，视觉编码器生成多尺度特征。

解码器

为了使解码器能够适应各个独立的查询，我们提出了一种查询依赖的分类头和一种查询依赖的回归头，用于多模态融合。如图3所示，头部是一个简单且轻量级的卷积网络。不同金字塔级别的所有头部共享相同的结构和权重。

查询依赖的分类头 。所提出的分类头由两个常规卷积层和一个查询依赖的卷积分类器组成，如图3所示。查询依赖的分类器计算时间视觉特征和文本嵌入之间的内积，从而得出反映给定查询语义的相似度分数。最后，将相似度进行缩放并通过Sigmoid函数得到介于0和1之间的语义分数。具体来说，通过接收视觉特征和语义查询作为输入，分类头将它们解码为每个时间步长对应查询的前景置信度序列。

查询依赖的回归头 。回归头用于预测给定动作/事件在每个时间步的时间偏移量。在典型的目标检测中，回归头可以设计为与类别无关，因为每个实例的边界明显且相似 [13]。然而，在视频动作/事件检测中，时间边界与检测类别密切相关，例如，查询“打开袋子”和“从某处取食物”对应于两个截然不同且高度动作相关的边界，如图2c所示。为此，我们提出了一种查询依赖的回归头，以预测与查询紧密相关的边界。如图3所示，所提出的回归头具有与分类头相似的结构，即由两个常规卷积层和一个查询依赖的卷积层组成。然而，与分类不同的是，文本嵌入不能直接作为卷积核来回归时间戳，因为文本编码器（即CLIP）主要通过对比学习进行训练，目的是为了分类。为了解决这个问题，我们引入了一个查询转化分支，负责语义转化，使文本嵌入能有效用于回归任务。查询依赖的卷积层使用语义转化后的嵌入作为其卷积核，并执行查询级别的卷积，以预测每个类别的时间偏移量。

最后，通过结合分类头和回归头的输出，得到与每个查询在每个时间步对应的检测结果。这些结果将通过分类阈值和Soft-NMS [2] 进行筛选，以获取最终输出。

损失函数

我们采用了两种损失函数来训练任务统一网络，即 (i) 多路二值分类损失和 (ii) 距离回归损失。为了联合训练这两个任务，我们使用加权和来调整两个损失之间的平衡。

任务融合学习

在本节中，我们旨在探索本文的核心问题：TAD和MR是否能通过任务融合学习互惠互利？在第1节中，我们分析了TAD和MR的注释数据，并识别出任务融合学习的三种潜在效益：(i) MR辅助TAD。MR中的大多数描述描绘了涉及多个动作的行为，这有助于TAD通过在相邻单一动作之间建立联系识别共现/顺序动作。(ii) TAD辅助MR。TAD提供了对行为的更详细分解，从而可以为MR任务带来更精确的时间间隔估计。(iii) 互惠互利。两项任务都增强了注释的可用性，即TAD为MR丰富了动作实例，而MR提供了许多可视为特定动作类别的事件描述。在接下来的内容中，我们将描述两种任务融合学习方法以优化潜力并提高两项任务的性能。

预训练。 任务融合学习中的常见做法是采用迁移学习的理念，首先在一项任务上对模型进行预训练，然后利用这些知识来提高另一项任务的性能。然而，这种方法需要两组任务的模型参数。

共同训练。 任务融合学习的另一种思路是共同训练。在这种方法中，由于UniMD的创新设计，两项任务同时训练，从一个随机初始化的模型开始，通过单一的训练过程完成这两个任务。基于不同的目的，我们实验了三种不同的采样方法：(i) 同步任务采样专注于TAD中的动作类别和MR中的文本语义的交互，确保每次迭代都涉及两项任务。它优先抽取覆盖两个任务的视频，然后从剩余视频中随机抽取TAD和MR对。(ii) 交替任务采样将TAD和MR视为单一任务，并对两项任务进行等采样。它交替抽取属于一个任务的视频，并在每次训练迭代中仅基于单一任务更新网络。(iii) 随机任务采样没有偏好，随机采样视频，因此每次迭代可能包含单一任务或两项任务。

在第6.3节中，我们将展示预训练和共同训练的实验，以证明任务融合学习的影响，并随后讨论所提出采样方法的有效性。

实验部分

消融实验

表1. 关于回归头、任务统一学习、损失权重和数据量的消融研究。最佳结果用粗体表示，次佳结果用下划线表示。

实验(a) 查询依赖的回归头

如表1a所示，使用查询作为输入的回归头在两个任务中的表现更好（在TAD中mAP从21.86%提升到22.61%，在MR中R1@30从12.49%提升到13.99%）。这种提升归因于查询的语义信息，使得对特定动作的时间间隔更为精确。在该头的查询转换分支中，配备了3个全连接层的MLP表现最佳。

实验(b)任务融合学习

表1b展示了在Ego4D验证集上预训练和共同训练的比较。我们采用TAD任务进行预训练，并在MR任务上进行后续微调，表示为“TAD→MR”。相反的方向表示为“MR→TAD”。不同任务的预训练效果有所不同。对于“MR→TAD”，在TAD中有0.08%的mAP轻微提升。然而，使用TAD作为预训练任务会对MR产生负面影响，可能是由于过拟合到TAD领域。此外，我们分析了三种共同训练采样方法的功效：同步任务采样（“Sync.”）、交替任务采样（“Alt.”）和随机任务采样（“Random”）。值得注意的是，共同训练的模型在测试两个任务时使用相同的一组参数。首先，“Sync.”方法在TAD和MR任务的共同训练结果中显著提升。特别是在Ego4D中，TAD的mAP提高了1.51%，MR的R1@50提高了0.75%。接着，“Alt.”方法在MR中显著增强（R1@50提升1.22%），超过了“Sync.”方法的效果。其原因是将TAD和MR分成交替的迭代有效地将TAD视为MR任务，从而增加了MR的注释和负样本的数量。然而，就TAD指标而言，“Alt.”方法倾向于MR，这与“Sync.”方法不同，后者更好地利用了TAD和MR的注释以实现互惠互利的结果。关于“Random”方法，在TAD和MR方面均有提升，效果介于“Sync.”和“Alt.”之间。关于Charades和ANet任务融合学习的更多实验将会在补充材料中展示。

实验(c) 损失权重

不同损失权重对结果的影响显著，如表1c所示。例如，使用“1-1”损失权重时，共同训练的性能比专用模型在TAD中表现更差（22.55 mAP对比22.61 mAP）。因此，我们仔细选择了“3-1”的损失权重，以确保共同训练模型在任务之间达到适当的平衡。

实验(d) 数据量

表1d展示了不同数据量对ANet验证的影响。通过控制每个任务的训练数据数量（例如，“0.5-0.5”表示仅使用TAD和MR中的一半视频），我们观察到数据量增加对两个任务都有积极影响，如图1所示。值得注意的是，在TAD中，使用仅50%训练视频的共同训练模型略微超过了专用模型，而在MR中，即使用仅25%训练视频的共同训练模型也显著超越了专用模型。这表明，互惠效益不仅仅来自标注数量的增加，更源于共同训练增强了效果。

与SOTA比较

Ego4D上的结果

我们的方法与最先进的SOTA方法的比较如表2所示。我们的模型在验证集和测试集上都表现出了优越的性能，为TAD和MR任务建立了新的SOTA结果。具体来说，与使用相同视频特征的InternVideo (AF) [5] 相比，我们的方法（称为 “UniMD+Sync.”）在TAD测试集中达到了3.94%的mAP和9.22%的R1@50的提升。尽管我们使用的特征不如ActionFormer [59]，但我们的方法在TAD中仍然领先1.49%的mAP和2.26%的R1@50。此外，在MR测试集中，UniMD相比InternVideo (VSLNet) [5] 在R1@30提升了1.13%，在R5@30则显著提升了6.63%。最后但同样重要的是，UniMD能够在单一模型中同时执行TAD和MR任务，计算成本几乎没有增加，例如，与ActionFormer相比增加不到1%。这些结果展示了UniMD在处理复杂视频时刻检测任务中的卓越性能和效率。

Charades和Charades-STA上的结果