专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

NeurIPS 2024 | E.T. Bench: 迈向细粒度、事件级的视频时序理解

3DCV · 公众号 · · 2024-11-01 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

引言

多模态大模型的出现引发了视觉-语言理解领域的重大范式转变。多模态大模型通过融合先进的视觉编码器与大语言模型，获得了优越的多模态感知和推理能力。为了全面地评估这些模型的能力，诸多图像/视频理解测试基准被构建出来。其中，视频理解测试基准上的测试结果表明，多模态大模型已经在视频理解任务上展现出了巨大潜力。

然而，现有视频理解测试基准主要依赖视频级问答评测模型表现，缺乏细粒度的事件级问答，这使得它们不足以反映模型在事件级视频时序理解任务上的能力。这使得我们不禁想问：1)现有多模态大模型在细粒度的事件级时序理解上是否能达到与视频级理解相似的表现；2)如果现有模型的时序理解能力不佳，应该如何进行有效地改进。

论文名：E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
项目主页：https://polyu-chenlab.github.io/etbench/
论文链接：https://arxiv.org/abs/2409.18111
代码链接：https://github.com/PolyU-ChenLab/ETBench

简介

为了回答上述两个问题，我们首先引入了E.T. Bench (Event-Level and Time-Sensitive Video Understanding Benchmark)，这是一个大规模，高质量，场景开放的事件级视频时序理解测试基准。E.T. Bench专注于长视频和多事件视频的细粒度时序理解。如下图所示，E.T. Bench由4个大类(指代、定位、密集视频描述和复杂理解)，12个子类的时序理解任务组成。E.T. Bench通过从15个数据集中精心收集视频，涵盖8个领域下的 7K 个视频(总长度达251.4小时)，从而确保场景的多样性和开放性。并且，我们通过全面仔细的数据清洗，标注重用，指令设计，人工验证和采样流程生成了7.8K个高质量的事件级时序理解问答对。

我们在E.T. Bench上测试了20个图像/视频多模态大模型，包括7个开源图像模型，9个开源视频模型和4个商业模型。结果表明，即使是最先进的多模态大模型，无论是开源还是闭源，都难以解决我们所关注的事件级时序理解任务，特别是在定位、密集视频描述和复杂理解任务上。

为了有效提升模型的事件级时序理解能力，我们进一步提出了E.T. Chat，一个新的时间敏感的视频多模态达模型，它通过定制的专家模块将时间戳预测重新形式化为嵌入匹配问题，并相应地构造了一个为多事件和时间敏感场景量身打造的指令微调数据集E.T. Instruct 164K。E.T. Bench上的全面比较证明了E.T. Chat结合E.T. Instruct 164K的有效性。并且，我们希望所提出的测试基准，模型和指令微调数据集能够激发未来对视频理解的进一步研究。

测试基准构建

E.T. Bench的构建流程从定义事件级细粒度时序理解的四个基本能力开始，即1)指代，2)定位，3)密集描述和4)复杂理解。然后，我们精心挑选和设计了一系列专门用于全面评估上述每个能力的任务，并为每个任务筛选了带有人工标注时间戳的现有数据集，并根据任务所需形式将其原始标注重写为适合大模型评估的指令跟随格式。此外，我们尽量挑选了来自不同领域的变长视频，确保E.T. Bench 的多样性。最后，进行完备的人工检查，过滤和采样，以删除不符合预期的样本，确保E.T. Bench的高质量。

E.T. Bench与现有数据集的对比：

E.T. Bench中的动词分布：

E.T. Bench中的名词分布：

方法与模型

下图展示了所提出的E.T. Chat的整体架构。给定在时刻采样的视频帧，首先利用视觉编码器将其转换为一系列视觉Patch特征，其中和分别是Patch数量和特征维度。为了保持高时间分辨率的视频帧输入，减少冗余计算以及不超出LLM的上下文长度限制，我们采用帧压缩器将视觉Patch集合压缩合并为单个特征，并投影得到最终输入LLM的视觉特征，其中是LLM的输入维度。最后，讲每个视频帧编码得到的集合与用户提问一起送入LLM里获取答案。

帧压缩器

如下图所示，帧压缩器由一个具有可学习的随机初始化的query 的Q-Former ，一个上下文聚合器和一个投影层组成。在每个时刻，接受视觉Patch特征和文本提示作为输入，通过注意力机制将与用户提问相关的视觉信息聚合到中。然后，通过交叉注意力将与压缩合并为单个特征并经过投影层后转换到与LLM相同的特征空间中。

通过特征匹配进行时间预测

E.T. Chat的关键创新点集中在时间预测方式的设计上。一方面，我们认为通过离散的Next Token Prediction直接生成连续时间信号(即时间戳)难以优化，特别在指令微调数据量级较小的学术场景下是次优的解决方案。另一方面，受到Transformer特性的启发，即它擅长进行选择性复制而非数值计算，我们提出将时间预测转化为特征匹配问题。换句话说，我们训练模型生成或复制它想要引用的视频帧的特征，并将这些特征匹配回视频来获得时间戳。

具体来说，我们定义了一个特殊token 用于启动匹配过程，当模型在答案推理过程中认为要输出时间信息时，便会被生成并用于匹配视频帧特征，进而从匹配的帧索引中轻松获得所需的时间戳。例如，对于以1 FPS采样的视频，如果匹配到第i帧，则所携带的时间信息即视频的第i秒，整个匹配过程简单有效。

首先，将和压缩后的视频帧token在LLM的第L-1和L层中获取的隐含层状态分别表示为和，则在匹配过程中，利用两个MLP分别将和投影到对齐空间中得到和。随后，我们计算与所有的余弦相似度从而获得匹配的帧索引。

然后，将获得的匹配帧索引乘以视频帧的采样率便可还原得到实际的时间戳。通过这一操作，时间戳的直接预测被形式化为特征匹配，这对擅长选择复制的Transformer来说更容易学习。

E.T. Instruct 164K 数据集

我们构造了E.T. Instruct 164K用于训练模型，如下表所示，它覆盖了来自14 个数据集的内容多样的事件级理解任务，包括时间定位、总结、亮点检测、密集描述和问答等。

实验

评价设置

E.T. Bench 中的不同任务具有不同的评价设置和多样的输出格式，单一指标（如准确率）不足以满足各类任务的需求。为了平衡指标数量和排名的简便性，我们对指代任务报告准确率，对定位任务报告F1分数，对密集视频描述任务报告F1分数和句子相似度，对复杂理解任务报告召回率。