24年10月来自斯坦福的论文“HourVideo: 1-Hour Video-Language Understanding”。
HourVideo,是一个用于理解长达一小时视频语言的基准数据集。数据集由一套新任务组成,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、目标检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的自我中心视频,时长为 20 到 120 分钟,并包含 12,976 个高质量的五路多项选择题。基准测试结果表明,包括 GPT-4 和 LLaVA-NeXT 在内的多模态模型比随机模型取得了微小的改进。与此形成鲜明对比的是,人类专家的表现明显优于最先进的长上下文多模态模型 Gemini Pro 1.5(85.0% vs. 37.3%),凸显了多模态能力的巨大差距。
人类表现出了在长时间内处理视觉刺激的非凡能力,使他们能够在现实世界中感知、规划和行动。考虑一下做饭的日常任务。这项活动涉及一个连续且自适应的视觉过程:识别和使用配料和工具,监控各种菜肴的状态变化,并根据颜色和质地等视觉线索调整烹饪时间/技术。这种持续的视觉处理对于实现预期的烹饪效果至关重要。自然地,赋予自主智体这种能力一直是人工智能领域的长期目标。
近年来,大型多模态模型 [1-3] 已成为实现这一目标的一种有希望方法。通常,这些模型使用多个数据集进行评估,以测试诸如目标识别 [4, 5]、图像理解 [6-8] 和动作识别 [9] 等功能。然而,这些基准通常仅限于单个图像或短视频片段,通常持续几秒到不超过三分钟 [9-12]。虽然这些基准测试已经推动了重大进展,但深入探索长篇视频语言理解,对于开发可以作为未来自主智体和助手基础的多模态系统至关重要。
评估长篇视频语言理解能力的一个重大挑战,是设计真正需要长期理解的任务,即需要长期依赖的任务。仅仅提出可以通过观看长视频的简短片段来回答的问题,实际上会将任务简化为时间定位和短片段理解的组合。此外,虽然可以为电视节目和电影等长篇视频制定有趣的叙事性探究,但必须确保这些问题不会因为现代大语言模型中编码的大量先验知识而轻易得到回答。
虽然开放式问答与人类互动非常相似,但自动评估自由形式的自然语言回答仍然具有挑战性。鉴于主要目标是评估长篇视频语言理解能力,选择五路
多项选择问答 (MCQ)
任务。这种方法计算总体问答准确度指标来简化评估过程。
任务套件
为长篇视频语言理解创建一个全面的基准是一项挑战,主要是因为提出需要处理和综合跨不同时间段信息的有意义的问题非常困难,即使对于专业的人类注释者来说也是如此。此外,即使是图像或短视频片段理解的基准也很难构建。因此,有两种常见的基准创建策略:(1)针对特定技能或狭窄领域进行测试的预定义标签空间(例如,Kinetics [9] 和 Something-Something [15]);或(2)将不同的数据集粘合在一起,每个数据集都旨在测试特定的模型功能 [16–19]。相比之下,一个可以全面测试一套模型功能的单一基准可以极大地造福研究界。
从这两种研究方法中汲取灵感,并引入了一套新任务,旨在对一小时长视频的长篇视频语言理解能力进行基准测试。该任务套件涵盖了一套全面的感知和认知任务,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、目标检索)任务。其策略是从前面说的两种常用方法中汲取灵感:(1)设计狭义的问题原型,以显著简化问答创建过程,(2)创建一套多样化的任务,全面评估广泛的多模态能力。该任务套件包含手动设计的问题原型,如表所示。
具体来说,提出的任务套件中有 18 个子任务,HourVideo 的示例 MCQ 如图所示。
数据生成流水线
如图所示总结了该数据生成流程。
添加图片注释,不超过 140 字(可选)
视频策划,第 1 阶段
。此基准测试的一个关键设计考虑因素是视频源和类型的选择。选择 Ego4D [13] 数据集作为视频数据集的原因有多种:(1) 其自我中心视角与自主智体和助手的典型视觉输入非常吻合;(2) 它具有广泛的视觉叙述,有助于创建多样化的多项选择题;(3) 它在 Ego4D 许可下易于访问。从 Ego4D 数据集中手动审查 1,470 个视频,时长从 20 到 120 分钟不等,评估了它们为任务套件中的各种任务生成相关问题的潜力。聘请了五位人类专家进行视频策划。按照这一过程,策划了 500 个以自我为中心的视频。
候选 MCQ 生成,第 2 阶段
。此阶段的目标是为每个任务生成高质量的 MCQ,需要分析和综合长视频中多个时间段的信息。最初,手动为套件中的每个任务开发问题模板。将问题模板转换为实际问题涉及结合针对任务和模板量身定制的视频特定信息。为了实现这一点,利用 Ego4D 数据集中的详细叙述,将它们转换为 LLM 可以处理的结构化格式。具体来说,以 20 分钟为间隔对视频进行分段,每个片段的表示包括视频中相机佩戴者遇到的工具、食物、技术、人类、宠物和物理位置的摘要和列表。将结构化表示和问题模板合成为具有正确和错误答案的有效问题是一项重大挑战,即使对于高级 LLM 也是如此。因此,对于每项任务,制定详细的提示,提供问题原型、全面说明、上下文示例以及如何将问题模板转换为有效候选 MCQ2 的分步指导。总共,开发 25 个特定于任务的提示。
通过人工反馈采用 LLM 细化 MCQ,第 3 阶段
。此阶段的目的是细化上一阶段创建的 MCQ/2。MCQ/2 可能包含无效问题、错误答案、琐碎的错误选项以及各种其他问题。这些问题的一个重要来源是依赖 Ego4D 中的嘈杂叙述。例如,同一视频中的不同叙述者可能会将洗碗机称为“盘子架”或使用其他术语,并且一个人可能会在叙述的不同时间被描述为“成年人”、“穿红白衬衫的人”、“男人 Y”或“青少年”。这些不一致之处,加上在第一阶段的自动问题生成,可能会导致生成无效的 MCQ。为了解决嘈杂的 MCQ,实施一个人工反馈系统,其中训练有素的注释者负责:1)评估每个问题的有效性以确保其与视频内容一致,2)验证给定答案的准确性 - 如果发现不正确,他们会以自由格式的文本提供正确答案,3)确保所有错误选项都是事实错误的,并且与正确答案明显不同。收集所有 MCQ/2 的人工反馈,涉及 400 多个小时的人工努力。然后,设计提示,使用这些人工反馈自动优化 MCQ/2 以生成 MCQ/3。在这个阶段聘请了七名训练有素的注释者。
盲过滤,第 4 阶段
。现代 LLM 拥有广泛的先验知识,因此可以轻松回答某些问题而无需分析视频。此阶段的目标是消除可以通过先验知识回答,或可以轻松回答而无需任何视频信息的问题。为了解决这个问题,利用两个独立的盲 LLM(GPT-4-turbo 和 GPT-4)对 MCQ/3 进行盲过滤。具体来说,会排除在没有视频输入的情况下至少一个 LLM 正确回答的任何 MCQ。虽然这种方法可能会积极地删除 MCQ,但它可以确保剩余的 MCQ/4 质量高,并且专门针对测试长篇视频语言理解而量身定制。