专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

SlowFast-LLaVA ｜ Apple团队提出视频大语言模型的强大免训练基线

FightingCV · 公众号 · · 2024-09-25 09:00

正文

摘要

我们提出了 S low F ast-LLaVA（简称 SF-LLaVA），这是一个无需训练的视频大型语言模型 (LLM)，它可以同时捕获详细的空间语义和长距离时间上下文，而不会超过常用 LLM 的符元预算。这是通过使用视频 LLM 的双流 SlowFast 输入设计来实现的，该设计可以有效地聚合来自采样帧的特征。具体而言，Slow 通路以较低的帧速率提取特征，同时尽可能地保留空间细节 ( 例如，带有 12 × 24 个符元)，而 Fast 通路则以较高的帧速率运行，但使用更大的空间池化步长 ( 例如，将 6 × 下采样) 来关注运动线索。因此，这种设计使我们能够充分捕获有利于详细视频理解的空间和时间特征。实验结果表明，SF-LLaVA 在各种视频任务上都优于现有的免训练方法。在某些基准测试中，与在视频数据集上进行微调的最先进的视频大语言模型相比，它实现了相当甚至更好的性能。代码已在以下地址提供：https://github.com/apple/ml-slowfast-llava。

图1：在 8 个视频基准上与最先进的 7B 视频大语言模型进行比较。免训练和监督微调（SFT）视频大语言模型分别使用实线（—）和虚线（- - -）进行标记。 SF-LLaVA 在所有基准测试中均优于现有的无需训练的方法，并且与在视频数据集上微调的大多数 SFT 方法相比，甚至取得了更好的结果。

1 简介

视频大型语言模型 (LLM) 处理视频输入，并通过使用预训练的 LLM (Achiam 等人，2023；Chiang 等人，2023；Touvron 等人，2023b；Jiang 等人，2024) 生成对用户命令的连贯且上下文相关的响应。尽管取得了令人信服的结果，但大多数视频 LLM (Maaz 等人，2024b；Lin 等人，2023；Xu 等人，2024；Zhang 等人，2024b) 都在大型标记视频数据集上进行了微调，这导致了高计算和标记成本。最近，免训练方法（Kim 等人，2024；Wu，2024；Zhang 等人，2024b）被提出作为一种简单且高成本效益的解决方案。它们直接将经过良好训练的图像 LLM 用于视频任务，无需额外微调，并表现出令人鼓舞的性能。但是，大多数现有的视频 LLM 存在两个主要缺点：(1) 它们仅在有限数量的帧作为输入时才能有效地工作 ( 例如， IG-VLM (Kim 等人，2024) 为 6，PLLaVA (Xu 等人，2024) 为 16)，这使得它们难以捕获整个视频中的细粒度空间和时间内容，(2) 它们只是将视频特征馈送到 LLM 中，而没有适当的时间建模设计，完全依赖于 LLM 的能力来模拟运动模式。

我们提出 S low F ast-LLaVA（或简称SF-LLaVA），一个基于LLaVA-NeXT构建的免训练视频大语言模型 ( Liu等人，2024），无需进一步微调。受到用于动作识别的成功双流网络（Simonyan & Zisserman，2014；Feichtenhofer 等人，2019）的启发，我们提出了一种新的视频大语言模型输入的 SlowFast 设计，以捕获详细的空间信息语义和远程时间上下文。具体而言，Slow 通路以较低的帧速率提取特征，同时以更高的分辨率保留空间信息 ( 例如，每个有 24 × 24 个符元的 8 帧)，而 Fast 通路则以较高的帧速率运行，但使用激进的空间池化步长 ( 例如，将每帧下采样到 4 × 4 个符元) 来关注运动线索。 SF-LLaVA 将“慢速和快速特征”结合在一起，作为各种任务的有效视频表示。与之前的工作相比，SF-LLaVA 有两个主要优点。首先，它集成了缓慢变化的视觉语义和快速变化的运动动力学的互补特征，提供了对视频的全面理解。其次，双通道设计平衡了建模能力和计算效率，使我们能够输入更多的视频帧以保留足够的细节。

SF-LLaVA 以视频作为输入，通过均匀地采样大量帧（表示为 N ）来尽可能地保留细节。帧特征 𝐅 v 通过视觉编码器( 例如 CLIP-L （Radford等人，2021） )独立提取，然后是视觉语言用于特征对齐的适配器。然后，特征 𝐅 v 分别输入到慢速和快速路径中。 Slow 通路从 𝐅 v 中均匀地采样 N slow ≪ N 个特征。先前的工作 (Xu 等人，2024) 发现适当地池化帧特征可以提高效率和鲁棒性。我们通过在空间维度上使用小步幅( 例如， 1 × 2 )的池化来遵循它们来聚合慢速路径中的特征。 Fast 路径采用所有 N fast = N 特征，并对每帧执行更积极的空间池化，以专注于更精细的时间分辨率。最后，来自两个通路的视觉符元被连接起来并馈送到 LLM 中以生成答案。

我们在 3 个视频任务（ i.e., 开放式视频问答、多项选择视频问答和文本生成）上对 SF-LLaVA 进行了广泛的评估，其中包含来自各种类型（ e.g., 第一人称和第三人称视角）和长度（ e.g., 短视频和长视频）的 8 个基准视频。实验结果（如图 1 所示）表明， SF-LLaVA 在所有基准测试中明显优于现有的免训练方法，并且与在视频数据集上经过精心微调的 SFT 模型相比，实现了相当甚至更好的性能。我们还对我们的 SlowFast 设计配方进行了全面的消融研究，希望能为未来的工作提供一些宝贵的见解。

2 相关工作

图像大型语言模型。在多模态大型语言模型 (LLM) 的开发方面取得了重大进展（ (Achiam et al., 2023; Team et al., 2023; McKinzie et al., 2024; Abdin et al., 2024; Liu et al., 2024) ）。作为一项开创性工作，Flamingo (Alayrac 等人, 2022) 接受任意交错的视觉和文本数据作为输入，并以开放式方式生成文本。 BLIP-2 (Li et al., 2023b) 使用预训练的视觉和文本模型，并利用提出的 Q-Former 来弥合领域差距。 LLaVA(-v1.5/NeXT) (Liu 等人, 2023b; a; 2024) 通过在视觉和文本模型之间利用简单的线性连接器或 MLP 并设计遵循以下的高效指令，实现了卓越的性能GPT 辅助的数据管道。最近，MM1 (McKinzie 等人, 2024) 对模型组件和数据选择进行了全面的消融研究，为理解图像大语言模型提供了宝贵的见解。也有一些努力将其他模态纳入。 Ferret (You 等人, 2023;Zhang 等人, 2024a) 专注于盒子/形状模态，增强模型在任何粒度上的语言基础能力。 3D-LLM (Hong 等人, 2023) 通过将 3D 表示注入大语言模型，实现 3D 开放式问答。 4M (Mizrahi 等人, 2023; Bachmann 等人, 2024) 提出了一个通用的any（模态）到任意（模态）框架，具有强大的开箱即用感知和生成能力。

视频大型语言模型。随着大语言模型 (Achiam 等人, 2023; Team 等人, 2023; Jiang 等人, 2023; Touvron 等人, 2023a; b) 的快速发展，人们对通才视频越来越感兴趣可以执行各种视频任务的模型。 Video-ChatGPT (Maaz 等人, 2024b) 提取每帧特征，然后使用两个空间和时间池操作聚合它们，然后将它们输入到大语言模型。 VideoChat (Li 等人, 2023c) 将视频编码为视频文本描述和视频外观嵌入。 Video-LLaVA (Lin 等人, 2023) 预先对齐图像和视频编码器，并学习共享投影仪将它们投影到语言空间。 PLLaVA (Xu 等人, 2024) 通过在视频理解数据上微调预训练的图像大语言模型，取得了令人信服的性能。 LLaVA-NeXT-Video (Zhang 等人, 2024b) 通过对视频数据及其 DPO 版本进行微调，改进了 LLaVA-NeXT (Liu 等人, 2024) (Zhang 等人, 2024b) 进一步将模型响应与人工智能反馈结合起来。

免训练视频 LLM 基于图像 LLM，不需要额外的微调即可用于视频场景。 FreeVA (Wu, 2024) 探索了不同的时间聚合方法，并在将视频特征发送到 LLM 之前有效地对它们进行池化。 IG-VLM (Kim et al., 2024) 将多个视频帧组装成图像网格，并将图像 LLM 应用于图像网格以执行视频任务。这些免训练模型在各种基准测试中显示出令人鼓舞的结果，但它们有两个主要缺点。首先，它们只能成功地处理视频中的少量帧（ e.g., FreeVA 中的 4 帧和 IG-VLM 中的 6 帧），这限制了它们只适用于短而简单的视频。其次，它们只是简单地吸收视频特征，完全依赖于 LLM 的能力来捕获视频沿时间轴的依赖关系。在本文中，我们提出了一种新的 SlowFast 设计，通过有效且高效地将更多帧（ e.g., 50）作为输入，来捕获视频理解的详细空间和时间线索。

3 S 低 F ast-LLaVA

我们介绍了一种免训练的视频 LLM，名为 S low F ast-LLaVA（简称 SF-LLaVA），基于 LLaVA-NeXT (Liu et al., 2024) ，如图 2 所示。受 (Simonyan & Zisserman, 2014; Feichtenhofer 等人，2019) 对动作识别的启发，我们提出了一种 SlowFast 设计，它使用双流输入为视频 LLM 共同捕获详细的空间语义和长程时间上下文，而不会超过常用 LLM 的符元预算。 ( 例如，Vicuna-v1.5 中的 4096）。具体来说，慢速路径包括“高分辨率” ¹ 但低帧率帧特征 ( 例如，每个有 12 × 24 个符元的 8 帧) 尽可能地捕获空间细节，而 Fast 通道包含“低分辨率”但高帧率帧特征 ( 例如，每个有 4 × 4 个符元的 64 帧) 来模拟更长的时间上下文。此设计使我们能够充分保留空间和时间信息，并将它们聚合在一起作为强大的视频表示。

3.1 预备：免训练视频大语言模型

一个无训练视频 LLM 是建立在预训练的图像 LLM 之上的无需在任何数据上进一步微调。它节省了大量的计算资源和模型训练时间，并提供了更大的灵活性，可以快速适应不同的应用场景。该研究方向的主要努力是改进视觉表示 ( 例如，组织采样帧 (Kim 等人，2024) 或整合文本描述 (Zhang 等人，2023a) ) 并有效地利用预训练 LLM 的知识来更好地适应视频任务。

给定视频 𝐕 ，帧采样器首先选择 N 个关键帧（表示为 𝐈 )。 ² 采样的帧要么排列成组合图像网格（Kim等人，2024），要么独立处理（Wu，2024；Zhang等人，2024b）作为输入该模型。视频特征提取为 𝐅 v = Visual enc ⁢ ( 𝐈 ) ，其中 Visual enc 是基于图像的视觉编码器，例如CLIP-L （Radford等人，2021）。 ³ 请注意，IG-VLM (Kim 等人, 2024) 使用 AnyRes (Liu 等人, 2024) 技术从组合图像网格中提取特征，而大多数其他方法，如 FreeVA (Wu, 2024) ，独立地从每一帧中提取特征。在将视频特征 𝐅 v 输入到大语言模型之前，通常使用特征聚合器 𝐅 v aggr = Aggregator ⁢ ( 𝐅 v ) 来使用预定义的池化操作来聚合视觉特征。此阶段的目标是（1）利用时间先验知识获得更好的视频表示，以及（2）减少视频标记的数量以避免超出大语言模型的词符限制。最后，聚合的视频特征 𝐅 v aggr 和问题 𝐐 被输入到 LLM 中以获得相应的答案，如式 1 所示。

其中 𝐏𝐫𝐨𝐦𝐩𝐭 表示系统提示符或用于正确指导大语言模型以获得所需答案的指令。由于免训练视频大语言模型直接使用基于图像的视觉语言模型（VLM）进行视频理解，因此有必要修改原始提示以适应从图像到视频场景的变化。我们将针对不同的提示进行实验，并在第 4.5 节中展示使用适当指令设计对于视频 LLM 的重要性。

图2： S low F ast-LLaVA 的可视化，这是一个基于 LLaVA-NeXT 构建的免训练模型，无需进一步微调。 Slow 通道 (以黄色显示) 以低帧率提取特征，同时使用更多符元尽可能保留空间细节，而 Fast 通道 (以蓝色显示) 在高帧率上运行，但应用更大的空间池化步幅，以关注运动线索。此设计使我们能够充分保留足够的时空信息，并将它们聚合在一起，作为对详细视频理解的有效表示。

3.2 Slow F ast架构

如图 2 所示，我们的 SF-LLaVA 遵循标准的无训练视频 LLM 管道。它以视频 𝐕 和问题 𝐐 作为输入，并输出答案 𝐀 ，以响应 𝐐 。对于输入，我们从每个视频中以任意大小和长度统一采样 N 帧 𝐈 = { I 1 , I 2 , … , I N } ，无需特殊的帧组装。视频特征被逐帧独立地提取为 𝐅 v ∈ ℝ N × H × W ，其中 H 和 W 是帧特征的高度和宽度。然后，我们进一步处理两个流中的 𝐅 v ( 即慢速和快速路径，如下所示），并将它们组合在一起作为有效的视频表示。

慢速路径从 𝐅 v 中统一采样 N slow 帧特征，其中 N slow ≪ N ，因为它在低帧速率下运行。由于之前的工作（Xu等人，2024）发现，沿着空间维度“适当”地池化( 例如，跨步 2 × 2 )可以提高效率和鲁棒性，我们保留在 𝐅 v 上应用池化的机会，步长 σ h × σ w 并获得最终特征 𝐅 v slow ∈ ℝ N slow × H slow × W slow ，其中 H slow = H / σ h 和 W slow = W / σ w 。 Slow 通道的整个过程可以概括在式 2 中。

快速路径保留来自 𝐅 v 的所有帧特征，以尽可能多地捕获视频中的时间上下文。具体来说，我们以较大的空间池化步长 γ h × γ w 积极地对 𝐅 v 进行下采样，并获得最终特征 ℝ N fast × H fast × W fast ，其中 N fast = N , H fast = H / γ h 和 W fast = W / γ w 。我们设置 H fast ≪ H 和 W fast ≪ W 以使快速路径专注于对时间上下文和运动线索进行建模。正式地，Fast 通道的整个过程如式 3 所示。

最后，通过 𝐅 v aggr = [ flat ⁢ ( 𝐅 v slow ) , flat ⁢ ( 𝐅 v fast ) ] 获得聚合视频特征，其中 flat 和 [ , ] 分别表示扁平化和串联操作。正如公式所示，我们没有在 𝐅 v aggr 中使用任何特殊符元来分隔 Slow 和 Fast 通道。因此，SF-LLaVA 总共使用 N slow × H slow × W slow + N fast × H fast × W fast 个视频 Token 。

视觉特征 𝐅 v aggr 将与文本符元 (包括提示和问题) 连接起来，作为 LLM 的输入，如式 1 所示。我们 SlowFast 管道的概述如等式 4 所示，其中 Slow 和 Fast 分别表示我们如上所述的慢速和快速聚合管道。

4 实验

4.1 基准和指标

开放式视频问答期望模型能够以自由式方式生成答案来回答视频问题。我们包括 MSVD-QA (Chen & Dolan, 2011) 、MSRVTT-QA (Xu 等人, 2016) 、TGIF-QA (Li 等人, 2016) ）和ActivityNet-QA（或表中的ANet-QA）（Yu等人，2019）作为该任务的基准。除了 ActivityNet-QA 之外，我们遵循之前的工作（Maaz 等人，2024b）并报告验证集上的性能。我们使用 GPT 辅助评估来评估模型的准确性（答案为真或假的准确性）和质量（分数范围从 0 到 5）。正如 FreeVA (Wu, 2024) 所指出的，不同的 GPT 版本会显著影响结果，我们报告使用 GPT-3.5-Turbo-0125 进行公平比较。

多项选择视频问答向视频 LLM 提供一组多项选择选项，并评估它们选择正确选项的能力。具体来说，我们在 NExTQA (Xiao 等人，2021) 、EgoSchema (Mangalam 等人，2024) 和 IntentQA (Li 等人，2023a) 上评估我们的模型。从选项中选择正确答案的准确性用作评估指标。

文本生成用于评估视频 LLM 的文本生成性能，并特别关注以下方面：信息准确性 (CI)、细节导向 (DO)、上下文理解 (CU)、时间理解 (TU) 和一致性 (CO)。我们使用 VCGBench (Maaz 等人, 2024b) 来评估这些任务，并按照其官方流程来评估此功能。具体来说，我们使用 GPT-3.5-Turbo-0125 进行评估。

4.2 实现细节

实验设置。我们在具有 8 个 Nvidia A100 80G 显卡的系统上进行所有实验。 SF-LLaVA 基于 LLaVA-NeXT (Liu 等人, 2024) 7B 和 34B 模型构建。我们使用他们在 HuggingFace 上提供的预训练权重 ⁴ 。为了处理长序列，我们按照 LLaVA-NeXT-Video (Zhang 等人, 2024b) 应用旋转位置嵌入 (RoPE) (Su 等人, 2024) ，并使用缩放因子 2，将上下文长度加倍至 8192 个标记。

输入和模型设置。 SF-LLaVA 将任意大小和长度的视频作为输入，并统一采样 N = 50 帧作为关键帧。关键帧的大小调整为 336 × 336 ，视觉编码器( 即 OpenAI 的 CLIP-L-14）将为每个关键帧输出 24 × 24 标记。对于慢速路径，我们统一从 𝐅 v 中选择 N slow = 10 帧特征并将其提取的特征池化到 10 × 12 × 24 ；对于快速路径，我们使用所有帧的特征( 即 N fast = N = 50 )并将其提取的特征池化到 50 × 4 × 4 。因此，SF-LLaVA 总共使用 10 × 12 × 24 + 50 × 4 × 4 = 3680 个视觉标记，我们选择此作为最大数量，因为 SF-LLaVA-34B 模型上的推理已经达到 80G GPU 内存。然后将 SlowFast 视频标记与文本标记连接起来，作为大语言模型的输入。

(a) 所有模型都使用 7B 或可比的 LLM 。 SF-LLaVA 在 MSVD-QA 上优于最先进的无训练方法 0.3%，在 MSRVTT-QA 上优于 2.1%，在 TGIF-QA 上优于 5.7%，在 ANet-QA 上优于 2.0%。 SF-LLaVA 在这些基准测试中也比大多数 SFT 方法表现更好。

4.3 主要结果

开放式视频问答结果如表 1 所示。 SF-LLaVA 在所有基准测试中都比现有的无训练方法表现更好。具体来说，SF-LLaVA 在 MSRVTT-QA 上分别优于 IG-VLM (Kim et al., 2024) 2.1% 和 5.0%，在 TGIF-QA 上优于 5.7% 和 1.5%，在 ActivityNet-QA 上优于 1.2% 和 0.8%，分别使用 7B 和 34B LLM。即使与最先进的 SFT 方法相比，SF-LLaVA 在大多数基准测试 ( 即 MSVD-QA、MSRVTT-QA 和 TGIF-QA) 上也取得了相当的结果，只有 PLLaVA (Xu 等人，2024) 和 LLaVA-NeXT-Video-DPO (Zhang 等人，2024b) 的结果在 ActivityNet-QA 上优于我们。

表 2 中显示了多项选择视频问答结果。 SF-LLaVA 在所有基准测试中都优于其他使用可比 LLM 和视觉编码器（例如 IG-VLM (Kim 等人，2024) ）的免训练方法。具体来说，在具有复杂长格式时间推理的具有挑战性的 EgoSchema 数据集上 (Mangalam 等人，2024) ， SF-LLaVA 分别使用 7B 和 34B LLM 时，比 IG-VLM 高出 11.4% 和 2.2%。这凸显了 SF-LLaVA 在长视频理解方面的能力。请注意，VideoTree (Wang 等人，2024b) 处于基准测试的领先地位，因为它建立在专有 LLM ( 即 GPT-4 (Achiam 等人，2023) ) 之上，该 LLM 的性能远优于开源 LLM。与 SFT 方法（Cheng 等人，2024）相比，SF-LLaVA 34B 模型在 EgoSchema 上也取得了更好的结果（+2.5%），这证实了我们的 SlowFast 设计在长视频上的能力。

(a) 所有模型都使用 7B 或可比 LLM 。 SF-LLaVA 在 NExTQA 上比最先进的免训练方法高出 1.1%，在 EgoSchema 上高出 11.4%。

(a) 所有模型都使用 7B 或可比 LLM 。 SF-LLaVA 处于时间理解 (TU) 基准测试的领先地位，这证实了我们的 SlowFast 设计在建模时间上下文方面的能力。

表 3 中显示了文本生成基准测试，其中 SF-LLaVA-34B 在平均得分上优于所有免训练基线。首先，我们观察到 SF-LLaVA 在细节方向 (DO) 上始终表现不佳，不如 LLaVA-NeXT-Image (Zhang 等人，2024b) 。这是因为 LLaVA-NeXT-Image 比我们采用更多“高分辨率”的输入帧 ( i.e., 32 帧，包含 12 × 12 个 v.s. 10 帧，包含 12 × 24 个符元)，因此能够捕获更多空间信息。其次，SF-LLaVA 利用 SlowFast 设计来覆盖更长的时序上下文，通过使用更少的视觉符元 ( i.e., 4608 个符元 v.s. 3680 个符元)，因此在所有其他任务中表现出色，特别是在时序理解 (TU) 方面。第三，我们观察到 SF-LLaVA-34B 优于大多数 SFT 方法 ( e.g, 在 TU 上超过 Video-LLaMA2 (Cheng et al., 2024) 0.1 分，在 CO 上超过 0.31 分)，但只需要追赶 LLaVA-NeXT-Video-DPO (Zhang et al., 2024b) 。

4.4 SlowFast的设计选择

我们首先验证 Slow 和 Fast 通路是否都是必不可少的，并继续分别对其设计选择进行实验。这些消融研究是在 ActivityNet-QA（一个开放式视频问答数据集，包含人类活动的视频）和 EgoSchema（一个多项选择视频问答数据集，需要对自我中心视频进行长篇理解）上进行的。

我们可以删除慢速路径吗？首先，我们简单地删除 Slow 路径，同时将 Fast 路径保留为 50 帧，每个帧都有 4 × 4 标记。图 3 显示，在所有基准测试中，移除 Slow 通路 ( N slow 等于 0) 将导致性能大幅下降。其次，我们验证性能提升是否由 Slow 通路的需求引起，还是由使用更多帧带来的视觉符元增加导致的。我们通过逐步增加 N fast 从 50 到 225 来弥补视觉符元的损失。表 4 中的结果表明，使用更大的 N fast 通常会获得更好的结果，但当 N fast 大于 150 时，结果会迅速饱和。我们还比较了表 4 中使用 N fast = 200 的基线和图 3 中使用 N slow = 8 和 N fast = 50 的 SF-LLaVA 模型，因为这些模型使用的符元数量相当 ( 3200 与 3104 ) 总计。结果表明，SF-LLaVA 在所有设置下都优于此新的基线 ( e.g., 在 ActivityNet-QA 上，使用 7B LLM 时，分别为 54.6% v.s. 49.7% 和 46.0% v.s. 37.0%)。所有以上结果表明，在 SF-LLaVA 中使用 Slow 通路是必不可少的。

表 4：增加 N fast 同时保持 N slow = 0 的影响。 Fast 通路中的每一帧输出 4 × 4 个符元。符号“–”表示该设置在 80GB GPU 上出现内存不足。

我们可以删除快速通道吗？我们通过移除快速路径（Fast pathway）并保留慢速路径（Slow pathway）来验证这一点（慢速路径包含 10 帧，每帧包含 12 × 24 个符元）。图 4 显示，SF-LLaVA 具有 N fast = 50 始终优于此基准。与慢速路径的实验类似，我们增加 N slow 以确保 SF-LLaVA 和此新基准具有可比的输入视频符元数量。具体来说，我们将 N slow 增加到 12 帧，这是 34B 模型在 80GB GPU 内存下所能承受的最大帧数。 SF-LLaVA 在 ActivityNet-QA (55.5% v.s. 54.1% 在 7B 模型上，59.2% v.s. 58.8% 在 34B 模型上) 和 EgoSchema (47.2% v.s. 46.6% 在 7B 模型上，55.8% v.s. 54.6% 在 34B 模型上) 上仍然优于此基准。我们观察到，EgoSchema 上的性能差距更加显著，因为它主要包含长视频，回答问题需要使用快速路径捕获更长的上下文。