24年6月来自阿肯色州立大学的论文“HENASY: Learning to Assemble Scene-Entities for Interpretable Egocentric Video-Language Mode”。
当前的视频-语言模型 (VLM) 广泛依赖于视频和语言模态之间的实例级对齐,这有两个主要限制:(1) 视觉推理违背了人类在第一人称视角中的自然感知,导致缺乏推理解释;(2) 学习受限于在捕捉两种模态之间固有的细粒度关系。
本文从人类感知中汲取灵感,探索一种以自我为中心视频表示的组合方法。引入 分层的实体组装(HENASY),它包括一个时空token分组机制,可以显式地组装随时间动态演变的场景-实体并建模它们的关系表征拍摄的视频。利用组合的结构理解,通过自由格式文本查询的视觉落地,HENASY 拥有很强的可解释性。进一步探索一套多粒度对比损失,促进以实体为中心的理解。这包括三种对齐类型:视频-叙述、名词-实体、动词-实体对齐。在以下五个下游任务体现竞争力:视频/文本检索、动作识别、多选查询、自然语言查询和时刻查询。
视频-语言模型 (VLM) ,目前已成为以自我为中心视频理解的一种事实上方法。在视频中,由任意实体之间的复杂动态交互组成,仅靠简单的实例级对齐,无法有效捕获这些交互。实际上,字幕包含简洁地捕获视频-实体的文本元素。例如,名词表征实体的出现 [4],而动词短语传达视频中的运动信息 [9]。
为完全捕获这些细粒度的对齐,如果能够做到以下几点,VLM 会更有效:(1) 以自下而上的方式理解视频,其中语义相似的patches形成实体,实体之间的关系构建视频表示;(2) 明确地建模视频-实体与名词/动词之间的细粒度关系,分别捕获外观/运动信息。
人类感知与上述几点要求密切相关。人类以组合的方式感知动态环境 [10],其中不同的实体从较小的部分中出现,这些部分组合成一个整体。每个实体都保持空间和时间的连贯性,并且只有在近距离时才会与其他实体交互。了解周围环境的组成结构,能够从本质上理解和记忆信息,同时也对决策过程提供解释,而这在当前以自我为中心 VLM 中是缺乏的。
HENASY 的概述如图所示:(a)当前的 VLM [5] 依赖于视频与叙述之间的实例级
对比学习
。HelpingHands [4] 在视频编码器的最后一层将目标出现信息隐式地引入到视频特征中。(b)HENASY 旨在通过
局部实体编码器
从视频patches中组装动态实体,而
实体-觉察解码器
捕获实体与全局上下文之间的交互以形成综合视频。HENASY 经过一套多粒度对比对齐的训练,将视觉表示从实体级强化到视频级。(c)通过这种组合方法,HENASY 通过外观/运动查询类型的视觉落地表现出强大可解释性的 VLM。
HENASY 由三个关键组件组成:(i)
局部实体编码器
,这是一种基于Transformer的分层编码器,它通过时空token分组机制学习从视频patches中组装动态场景-实体,该机制是静态图像中基于slot分组的增强版 [11, 12];(ii)
全局编码器
,这是一种预训练的视频表示模块,可以在全局层面感知输入视频;(iii)
实体-觉察解码器
,它对场景实体之间的内部交互及其与全局特征的关系进行建模,从而丰富以实体为中心的视频表示提取。此外,HENASY 能够执行视觉落地获得对应于实体或活动的动态分割,其中生成的实体嵌入及其注意图是其
局部实体编码器
的副产品,通过跨帧的动态显著图(saliency map)显示出有希望的解释。
HENASY 框架用于以自我为中心的视频语言建模。HENASY 是一种具有双编码器架构的组合视频理解方法,旨在探索可解释的基于实体视觉表示。具体来说,除了通常通过
全局编码器
捕获全局特征之外,视频编码器还通过
局部实体编码器
从视频patches中组装动态场景-实体,然后
实体-觉察解码器
对它们的内部连接以及与全局特征的相互连接进行建模,形成全面的视频表示。目标是开发一个可解释的推理过程,稳健地支持决策,同时允许使用文本查询进行视觉落地。为了实现这一目标,它不仅需要有效的网络设计,还需要一套多粒度对比学习来强制执行实体级和视频级表示。
如图所示:左图是HENASY 采用双编码器架构和组合视频理解方法。
局部实体编码器
从视频片段中组装动态场景实体,而
全局编码器
提供上下文特征。这些特征在
实体-觉察解码器
中组合起来,创建可解释的视频表示。右图是HENASY 的一套多粒度对比学习,强化实体级和视频级表示。
如图所示:
实体-觉察解码器包括一堆混合注意块,用于细化实体和视频 patches 之间的交互,并渲染出视频嵌入;
在混合注意块中,首先以实体 tokens 作为Q,以patch tokens作为K和V执行交叉注意;
然后,在输出上应用自注意机制,然后应用多层感知器 (MLP);
最终,对实体 tokens 的最终输出取平均来获得视频表示,称为实体-觉察视频嵌入。