本篇分享论文
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
,提出E.T. Bench,一个大规模,高质量,场景开放的事件级视频时序理解测试基准,专注于长视频和多事件视频的细粒度时序理解。
-
论文链接:https://arxiv.org/abs/2409.18111
-
代码链接:https://github.com/PolyU-ChenLab/ETBench
1.引言
多模态大模型的出现引发了视觉-语言理解领域的重大范式转变。多模态大模型通过融合先进的视觉编码器与大语言模型,获得了优越的多模态感知和推理能力。
为了全面地评估这些模型的能力,诸多图像/视频理解测试基准被构建出来。其中,视频理解测试基准上的测试结果表明,多模态大模型已经在视频理解任务上展现出了巨大潜力。
然而,现有视频理解测试基准主要依赖视频级问答评测模型表现,缺乏细粒度的事件级问答,这使得它们不足以反映模型在事件级视频时序理解任务上的能力。
这使得我们不禁想问:
-
现有多模态大模型在细粒度的事件级时序理解上是否能达到与视频级理解相似的表现;
-
如果现有模型的时序理解能力不佳,应该如何进行有效地改进。
2.简介
为了回答上述两个问题,我们首先引入了E.T. Bench (Event-Level and Time-Sensitive Video Understanding Benchmark),这是一个大规模,高质量,场景开放的事件级视频时序理解测试基准。
E.T. Bench专注于长视频和多事件视频的细粒度时序理解。如下图所示,E.T. Bench由4个大类(指代、定位、密集视频描述和复杂理解),12个子类的时序理解任务组成。E.T. Bench通过从15个数据集中精心收集视频,涵盖8个领域下的 7K 个视频(总长度达251.4小时),从而确保场景的多样性和开放性。
并且,我们通过全面仔细的数据清洗,标注重用,指令设计,人工验证和采样流程生成了7.8K个高质量的事件级时序理解问答对。
我们在E.T. Bench上测试了20个图像/视频多模态大模型,包括7个开源图像模型,9个开源视频模型和4个商业模型。结果表明,即使是最先进的多模态大模型,无论是开源还是闭源,都难以解决我们所关注的事件级时序理解任务,特别是在定位、密集视频描述和复杂理解任务上。
为了有效提升模型的事件级时序理解能力,我们进一步提出了E.T. Chat,一个新的时间敏感的视频多模态达模型,它通过定制的专家模块将时间戳预测重新形式化为嵌入匹配问题,并相应地构造了一个为多事件和时间敏感场景量身打造的指令微调数据集E.T. Instruct 164K。
E.T. Bench上的全面比较证明了E.T. Chat结合E.T. Instruct 164K的有效性。并且,我们希望所提出的测试基准,模型和指令微调数据集能够激发未来对视频理解的进一步研究。
3.测试基准构建
E.T. Bench的构建流程从定义事件级细粒度时序理解的四个基本能力开始,即1)指代,2)定位,3)密集描述和4)复杂理解。
然后,我们精心挑选和设计了一系列专门用于全面评估上述每个能力的任务,并为每个任务筛选了带有人工标注时间戳的现有数据集,并根据任务所需形式将其原始标注重写为适合大模型评估的指令跟随格式。此外,我们尽量挑选了来自不同领域的变长视频,确保E.T. Bench 的多样性。
最后,进行完备的人工检查,过滤和采样,以删除不符合预期的样本,确保E.T. Bench的高质量。
4.方法与模型
下图展示了所提出的 E.T. Chat 的整体架构。给定在时刻
采样的视频帧
,首先利用视觉编码器
将其转换为一系列视觉 Patch 特征
,其中
和
分别是Patch数量和特征维度。
为了保持高时间分辨率的视频帧输入,减少冗余计算以及不超出 LLM 的上下文长度限制,我们采用帧压缩器
将视觉 Patch 集合压缩合并为单个特征,并投影得到最终输入 LLM 的视觉特征
,其中是 LLM 的输入维度。
最后,讲每个视频帧编码得到的
集合与用户提问一起送入LLM里获取答案。
帧压缩器:
如下图所示,帧压缩器
由一个具有可学习的随机初始化的 query
的 Q-Former
,一个上下文聚合器
和一个投影层
组成。在每个时刻
,
接受视觉 Patch 特征
和文本提示
作为输入,通过注意力机制将与用户提问相关的视觉信息聚合到
中。然后,
通过交叉注意力将
与
压缩合并为单个特征并经过投影层
后转换到与 LLM 相同的特征空间中。
通过特征匹配进行时间预测:
E.T. Chat 的关键创新点集中在时间预测方式的设计上。一方面,我们认为通过离散的 Next Token Prediction 直接生成连续时间信号(即时间戳)难以优化,特别在指令微调数据量级较小的学术场景下是次优的解决方案。另一方面,受到 Transformer 特性的启发,即它擅长进行选择性复制而非数值计算,我们提出将时间预测转化为特征匹配问题。换句话说,我们训练模型生成或复制它想要引用的视频帧的特征,并将这些特征匹配回视频来获得时间戳。
具体来说,我们定义了一个特殊token
用于启动匹配过程,当模型在答案推理过程中认为要输出时间信息时,
便会被生成并用于匹配视频帧特征,进而从匹配的帧索引中轻松获得所需的时间戳。例如,对于以 1 FPS 采样的视频,如果
匹配到第
帧,则
所携带的时间信息即视频的第
秒,整个匹配过程简单有效。
首先,将
和压缩后的视频帧 token 在 LLM 的第
和
层中获取的隐含层状态分别表示为和
和
,则在匹配过程中,利用两个 MLP 分别将