专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

Jiaya Jia团队提出LLaMA-VID ：一张图片在大型语言模型中值两个token

FightingCV · 公众号 · · 2024-10-04 09:00

正文

摘要

在这项工作中，我们提出了一种新方法来解决视觉语言模型 (VLM) 在视频和图像理解中符元生成方面的挑战，称为 LLaMA-VID。现有的 VLM 虽然在图像字幕和视觉问答等任务方面表现出色，但在处理长视频时，由于过多的视觉符元，会面临计算负担。 LLaMA-VID 通过用两个不同的符元来表示每一帧来解决这个问题，即上下文符元和内容符元。上下文符元根据用户输入对整体图像上下文进行编码，而内容符元封装了每一帧中的视觉线索。这种双符元策略显著减少了长视频的过载，同时保留了关键信息。通常，LLaMA-VID 使现有框架能够支持长达数小时的视频，并通过一个额外的上下文符元将上限提高。事实证明，它在大多数基于视频或图像的基准测试中超越了以前的方法。代码可在 https://github.com/dvlab-research/LLaMA-VID 获取。

1 引言

大型语言模型 (LLM) [43, 64, 53] 凭借其生成上下文准确响应的能力，极大地推动了人工智能领域的发展。借鉴 LLM 的优势，视觉语言模型 (VLM) [14, 33, 44] 已被开发出来，将这些能力扩展到视觉数据，证明了它们在图像字幕和视觉问答等任务中的能力。然而，在长视频的背景下，一个重大的挑战出现了，即需要大量的符元来表示连续的帧。视频长度的增加会导致计算需求的激增，从而限制了 VLM 在处理长视频方面的实际应用。

近期，一些方法被提出用于处理视频，超越了仅限于图像的 VLM。这些方法旨在通过利用代表性的查询 [30, 62] 或应用时间压缩 [39, 38] 来缓解符元问题。尽管付出了这些努力，但长视频带来的挑战仍然没有得到解决。主要障碍源于每个视频帧所需的符元数量过多。例如，BLIP [29, 14] 和 LLaVA [33] 等模型分别需要 32 个和超过 256 个符元来表示单个图像。因此，包含 10K 帧的视频将需要超过 320K 个符元，超过了当前 VLM 的容量。此外，简单的时间压缩可能会严重损害长期间隔内的表示。这一缺点阻碍了它们的性能，从而突出了对稳健解决方案的需求。

图 1 : 提出的 LLaMA-VID 在大多数基准测试中以 7B LLMs 实现了领先的性能。基于视频和基于图像的基准测试分别以蓝色和紫色表示。请参阅表格 1 、 2 和 3 以了解更多详情。

在这项工作中，我们提出了 LLaMA-VID，这是一种有效管理长视频中符元生成问题的全新方法。我们的核心思想是用两种不同的符元来表示每个视频帧：上下文符元和内容符元。上下文符元旨在根据用户输入对图像的整体上下文进行编码，这将更广阔的图像有效地压缩到单个符元中。同时，内容符元捕获了每个帧的更精细方面。根据计算约束，内容符元的长度可以扩展以包含更多细节，例如，视频输入为 1 个符元/帧，单张图像为 256 个符元/帧以上。这样，就可以在不牺牲关键信息的情况下，显著减少长视频的负载。

特别是，我们的方法采用了一种既高效又有效的双符元生成策略。对于每个帧，我们首先使用预训练的视觉 Transformer [16] 提取图像特征，类似于其他 VLM [14, 33] 。关键问题是如何根据用户指令生成与上下文相关的符元。我们通过利用跨模态设计 [15, 29] 来提供解决方案，用于指令引导的查询，这些查询承载着用户的交互意图。对于上下文符元，这些查询与设计的注意力模块中先前生成的图像特征进行交互，被称为上下文注意力。为了生成内容符元，图像特征被平均池化以形成适应不同设置的符元。例如，全局池化被采用以保持视频输入的效率，而细节则通过更多用于单图像输入的符元来保留。上下文和内容符元随后被投影到 LLM 的空间中，通过简单的线性层进行最终预测。此外，为了更好地支持 VLM 中的数小时视频，我们构建了一个基于指令的数据集，其中包含 9K 个电影级别的对话，用于情节推理和细节理解。

通常，LLaMA-VID 可以从两个方面进行区分。一方面，通过双符元范式，每个帧只需使用两个符元就可以有效地编码，这使得现有的 LLM 能够支持长视频。另一方面，上下文符元聚合了每张图像的最具信息量的特征，这进一步通过一个额外的符元扩展了 VLM 的上限。

整个框架，被称为 LLaMA-VID，可以很容易地使用各种解码器和 LLM 实例化，如第 3 节所述。第 4 节进行了广泛的实证研究，以揭示每个组件的有效性。值得注意的是，我们的模型可以在一台配备 8 个 × A100 GPU 的机器上在 2 天内完成训练，并且在大多数基于视频和图像的基准测试中，它优于之前领先的方法，如图 1 所示。

2 相关工作

本节首先回顾大型语言模型，并深入探讨视觉语言模型的最新进展。

2.1 大型语言模型

随着大型语言模型 (LLM) 的发展，自然语言处理 (NLP) 领域取得了巨大的进步。 Transformer [55] 成为一个重要的里程碑，随后的语言模型 [15, 35, 64] 展现出非凡的能力。 GPT [6] 通过利用生成式预训练 Transformer 进行自回归预测，彻底改变了该领域，这被证明是一种强大的语言建模范式。最近的突破性工作，如 ChatGPT [43] 、GPT-4 [44] 和 LLaMA [53] ，将界限推向了更远。这些模型在海量文本数据上进行训练，在复杂的语言任务中展现出非凡的能力。为了利用预训练 LLM 的潜力，指令调优 [56, 45] 是获得高质量输出的关键组成部分。这种策略广泛应用于开源模型，如 Alpaca [52] 和 Vicuna [13] ，它们使用专门设计的指令对改进了 LLaMA [53] 。还有一些研究 [57, 60] 利用 LLM 的推理能力并调用预定义工具来进行视觉应用。与它们不同，我们在这项工作中收集了包含文本、图像和视频的多模态指令数据，用于增强 LLM 进行长视频处理的能力。

2.2 视觉语言模型

计算机视觉和 NLP 的进步导致了视觉语言模型 (VLM) 的出现，这些模型将视觉模型与语言模型相结合，以进行跨模态理解 [11, 58] 和推理 [19, 37, 27] 。 CLIP [46] 和 ALIGN [24] 等开创性的大型视觉语言模型 (VLMs) 将语言模型扩展到了视觉语言任务。近期的进展表明，人们越来越重视利用大型语言模型 (LLMs) 的能力。值得注意的是，Flamingo [2] 和 BLIP-2 [29] 利用网络规模的图像-文本对进行跨模态对齐，从而提高了学习性能。为了进一步挖掘此类预训练模型的潜力，InstructBLIP [14] 和 MiniGPT-4 [65] 基于 BLIP-2 构建了高质量的指令对，并取得了优异的结果。与此同时，LLaVA [33] 采用了一个简单的线性投影器，该投影器具有少量可学习参数，以对齐 LLaMA 的图像和文本空间。鉴于定制的指令数据，这种简单的方法展示了强大的能力。为了支持大型语言模型 (LLMs) 中的视频理解，Video-LLaMA [62] 和 VideoChat [30] 尝试利用 BLIP-2 进行视频嵌入提取，而 Video-ChatGPT [39] 则提出了用于视频特征的时空池化。但是，鉴于每帧所需的大量符元数量，大型语言模型 (LLMs) 在处理大量的视频序列时遇到了巨大的挑战。这使得以前的工作无法在大型语言模型 (LLMs) 中表示超过一小时的长时间视频序列。为了解决这个问题，我们建议用只有 2 个符元来有效地编码每一帧，这支持在现有的大型语言模型 (LLMs) 中进行长时间视频理解。

图 2 : LLaMA-VID 的框架。在用户指令的引导下，LLaMA-VID 通过以单个图像或视频帧作为输入来运行，并从大型语言模型 (LLM) 中生成响应。该过程首先使用一个视觉编码器将输入帧转换为视觉嵌入。然后，文本解码器根据用户输入生成文本查询。在上下文注意机制中，文本查询从视觉嵌入中聚合与文本相关的视觉线索。为了提高效率，提供了一个选项，可以将视觉嵌入降采样到不同的符元大小，甚至降采样到单个符元。然后，使用线性投影器来制定文本引导的上下文符元和视觉增强的内容符元，以表示每个时间 t 的帧。最后，LLM 将用户指令和所有视觉符元作为输入，并给出响应。

3 LLaMA-VID

LLaMA-VID 的框架在概念上很简单：采用编码器和解码器分别生成视觉嵌入和文本引导特征；使用定制的符元生成策略转换上下文符元和内容符元；指令调优旨在释放 LLM 在图像和视频方面的潜力。

3.1 编码器和解码器

提出的 LLaMA-VID 可以用于与单幅图像或长视频交互。为了清晰起见，我们假设输入图像来自视频序列，如图 2 所示。给定时间 t 的视频帧 𝐕 t ∈ ℝ H × W × 3 ，首先使用基于 Transformer 的视觉编码器来生成视觉嵌入 𝐗 t ∈ ℝ N × C 。这里， N = H / p × W / p 和 C 分别表示图像块的数量和嵌入通道的数量。对于基于 ViT 的主干 [16, 46, 17] ，块大小 p 通常设置为 14。同时，我们将用户指令作为输入，并使用生成的 𝐗 t 生成文本引导的查询 𝐐 t ∈ ℝ M × C ，其中 M 表示查询的数量。如图 2 所示，这种跨模态交互主要发生在文本解码器中，文本解码器可以很容易地使用 BERT [15] 或 QFormer [14] 实例化，如表 6 中的比较所示。通过这种方式，文本查询 𝐐 t 包含与用户指令最相关的突出显示的视觉提示。

3.2 符元生成

使用文本查询 𝐐 t 和视觉嵌入 𝐗 t ，我们可以很容易地为 LLM 生成代表性符元。具体来说，上下文注意旨在聚合文本相关的视觉特征并将它们压缩到单个上下文符元中。如图 2 所示，它以 𝐐 t 和 𝐗 t 作为输入，并生成与上下文相关的嵌入 𝐄 t ∈ ℝ 1 × C 作为

算法 1 符元生成伪代码。

# B: 批次大小; C: 通道大小; n: 内容形状

# M: 查询长度; N: 形状 of 展平图像 pacthes；

# text_q: 文本查询在形状 ( B， M， C）

# vis_embed: 视觉嵌入在形状 ( B， N， C）

# 关键部分 1: 计算与上下文相关的嵌入

ctx_embed = text_q @ vis_embed 。转置0> (-1,-2)1>

ctx_embed = ctx_embed / ( vis_embed 。0> 形状1> [-1]* *0.5)2>

ctx_embed = ( ctx_embed 。 softmax (-1) @vis_embed )。0> 平均值1> (1)2>

ctx_embed = 自身。 ctxproj ( ctx_embed [:, 无0> ])1>

# 关键部分 2: 计算视觉嵌入

cur_shape = int ( vis_embed . 形状 [1]**0.5)

vis_embed = vis_embed 。重塑 ( B , 0> cur_shape1> ,2> 3> -1，4> 5> C6> )7>

vis_embed = F 。 avg_pool2d ( vis_embed 。排列0> (0,3,1,2),1> 2> kernel_size3> =4> cur_shape5> //6> n7> ,8> 9> 步幅0> =1> cur_shape2> //3> n4> )5>

vis_embed = vis_embed 。置换 (0,2,3,1)。展平 (1,2)

vis_embed = 自身。 visproj ( vis_embed )

# concat 标记在形状 (B, n+1, C), n 在 [1,N]

final_token = 火炬。猫 ([ ctx_embed , 0> vis_embed1> ],2> 3> 暗淡4> =1)5>

F ：torch.nn.function； ctxproj 、 visproj : 预定义线性投影器。

其中， Softmax 函数和 Mean 操作分别沿 N 和 M 维度进行。与采用 32 个视觉查询作为 LLM 符元的 QFormer [14] 不同，我们仅使用文本查询 𝐐 t 来聚合具有高响应分数的视觉特征，以输入指令。结果，与用户输入相关的最重要的视觉线索在压缩的嵌入 𝐄 t 中得到有效保留。表 4 和图 6 演示了这种与上下文相关的符元生成的有效性。随后，使用线性投影器将嵌入 𝐄 t 转换为上下文符元 𝐄 t T ∈ ℝ 1 × C ，该符元与 LLM 的语言空间一致。同时，根据计算限制，我们对视觉嵌入采用了自适应池化策略来生成内容符元 𝐄 t V ∈ ℝ n × C ，其中 n ∈ [ 1 , N ] 。例如，当输入单张图像时，我们保持视觉嵌入 𝐗 t 的原始分辨率，而对于长视频，我们对 𝐗 t 进行下采样到 1 个符元。此方法显着减少了 LLM 对每一帧的过载，从而有效地支持长达数小时的视频。最后，将生成的上下文符元 𝐄 t T 和内容符元 𝐄 t V 连接起来，以表示时间 t 处的帧。与其他时间戳的帧一起，整个视频序列被翻译成符元格式的语言空间，然后用于从 LLM 生成响应。整个过程在算法 1 中进行了总结。

图 3 : 每个阶段模型训练的多模态数据分布和指令格式。和分别表示单个图像和 i -th 视频帧的符元。

3.3 训练策略

训练策略，特别是指令调优，已被证明对 LLM [53, 52, 13] 和 VLM [14, 33, 32] 至关重要。考虑到训练效率，在这项工作中，我们将训练过程分为三个阶段，即，模态对齐、指令调优和长视频调优。

图 4 : 为电影泰坦尼克号构建指令对的示例。鉴于电影梗概和剧本，我们利用开发的 LLM（如 GPT-4 [44] 和 Claude-2 [3] ）来生成电影摘要、与情节相关的问答对和一般推理问答对。

模态对齐。如图 2 所示，每个视频帧在每次前向传递中被投影到 LLM 的空间中。因此，确保视觉特征与语言空间良好对齐至关重要。为此，我们构建了一个包含 790K 个高质量图像和视频字幕对的紧凑数据集。如图 3 所示，它主要包含来自 LLaVA 过滤的 CC3M 数据集 [48] 的 558K 个图像字幕对和从 WebVid 2.5M 数据集 [5] 中采样的 232K 个视频字幕对。每个模态的指令格式如图 3 所示。在这个阶段，我们主要优化图 2 中的上下文注意力和投影仪，同时冻结视觉编码器和文本解码器等预训练模块。

指令调优。为了增强 LLM 的多模态理解能力，我们从 [32] 和 [39] 中构建指令对。特别地，构建的数据集主要涉及三个来源的内容，即，来自 ShareGPT [1] 的 40K 个文本对话，来自 [33, 19, 22, 40, 42, 47, 49, 25, 41, 26] 的 625K 个单轮或多轮视觉问答对，以及来自 [7] 的 98K 个视频问答对。对于指令，我们针对文本、图像和视频输入采用了不同的格式，如图 3 所示。并且输入提示和答案随数据集而变化。请参考 [32] 和 [39] 了解更多细节。同时，图像符元在训练期间被随机插入到用户输入的开头或结尾。在指令调优中，除了冻结的视觉编码器之外，所有模块都被优化了。

Method	LLM	Res.	MSVD-QA		MSRVTT-QA		ActivityNet-QA
Method	LLM	Res.	Acc	Score	Acc	Score	Acc	Score
FrozenBiLM [59]	DeBERTa-V2	224	32.2	–	16.8	–	24.7	–
VideoLLaMA [62]	Vicuna-7B	224	51.6	2.5	29.6	1.8	12.4	1.1
LLaMA-Adapter [63]	LLaMA-7B	224	54.9	3.1	43.8	2.7	34.2	2.7
VideoChat [30]	Vicuna-7B	224	56.3	2.8	45.0	2.5	26.5	2.2
Video-ChatGPT [39]	Vicuna-7B	224	64.9	3.3	49.3	2.8	35.2	2.7
BT-Adapter [34]	Vicuna-7B	–	67.5	3.7	57.0	3.2	45.7	3.2
LLaMA-VID	Vicuna-7B	224	69.7	3.7	57.7	3.2	47.4	3.3
LLaMA-VID	Vicuna-13B	224	70.0	3.7	58.9	3.3	47.5	3.3

表 1 : 与领先方法在 4 个零样本视频问答数据集上的比较。我们报告每帧 2 个符元的结果。为了公平比较，我们的模型使用图 3 中阶段 1 和阶段 2 的数据进行训练，没有进行长视频调优。 Res 表示图像分辨率。

长视频调优。为了进一步释放对时长一小时的视频的潜力，我们构建了 15K 个长问答对，包括 9K 个电影场景中的对话和 6K 个从 LongLoRA [12] 中采样的数据用于符元扩展。具体而言，我们利用 MovieNet [21] 中的 400 多部长片及其相应的脚本构建训练集。指令生成的关键组件在图 4 中可视化。通常，生成的数据集包括来自三个方面的 QA 对：视频摘要、电影情节和详细推理。对于视频摘要，我们收集电影梗概，使用像 GPT-4 [44] 这样的开发的大语言模型 (LLM) 为每部电影生成简短和详细的摘要。总共带来了约 1K 个摘要级别的指令对。对于情节级别数据，我们将整个电影梗概作为输入，并利用 GPT-4 [44] 生成与情节和角色相关的 QA 对。这些包括情节理解、描述、分析、角色关系、个性和行为。特别地，我们为每部电影生成 5 个与情节相关的对和 5 个与角色相关的对，共计 4K 个情节级别的 QA 数据。至于细节级别数据，我们将长电影剧本输入 Claude-2 [3] ，并为每部电影生成 5 个与情节相关的推理对和 5 个与细节相关的描述，共计 4K 个对。使用长视频和生成的对，我们通过将每一帧的视觉标记和字幕标记连接起来来执行指令调优，如图 3 所示。通过这种方式，LLaMA-VID 可以很好地支持 64K 个标记，输入超过 3 小时的视频。请参考补充材料了解详细信息。

Method	LLM	Res.	Correctness	Detail	Context	Temporal	Consistency
VideoLLaMA [62]	Vicuna-7B	224	1.96	2.18	2.16	1.82	1.79
LLaMA-Adapter [63]	LLaMA-7B	224	2.03	2.32	2.30	1.98	2.15
VideoChat [30]	Vicuna-7B	224	2.23	2.50	2.53	1.94	2.24
Video-ChatGPT [39]	Vicuna-7B	224	2.40	2.52	2.62	1.98	2.37
BT-Adapter [34]	Vicuna-7B	–	2.68	2.69	3.27	2.34	2.46
LLaMA-VID	Vicuna-7B	224	2.96	3.00	3.53	2.46	2.51
LLaMA-VID	Vicuna-13B	224	3.07	3.05	3.60	2.58	2.63

表 2 ：在视频驱动的生成性能基准测试 [39] 上与领先方法的比较。我们报告了每帧 2 个标记的结果。为了公平比较，我们的模型在图 3 中使用阶段 1 和阶段 2 的数据训练，没有进行长视频微调。 Res 表示图像分辨率。正确性 , 详细程度 , 上下文 , 时间性 , 和一致性分别表示信息正确性、细节导向、上下文理解、时间理解和一致性的评估指标。

Method	LLM	Res.	GQA	MMB	MME	POPE	SEED	SQA I	VizWiz	VQA v2
InstructBLIP [14]	Vicuna-7B	224	49.2	36.0	–	–	53.4	60.5	34.5	–
IDEFICS-9B [23]	LLaMA-7B	224	38.4	48.2	–	–	–	–	35.5	50.9
Qwen-VL † [4]	Qwen-7B	448	59.3*	38.2	–	–	56.3	67.1	35.2	78.8*
Qwen-VL-Chat † [4]	Qwen-7B	448	57.5*	60.6	1487.5	–	58.2	68.2	38.9	78.2*
LLaVA-1.5 [32]	Vicuna-7B	336	62.0 *	64.3	1510.7	85.9	58.6	66.8	50.0	78.5 *
LLaMA-VID	Vicuna-7B	336	64.3 *	65.1	1521.4	86.0	59.9	68.3	54.2	79.3 *
BLIP-2 [29]	Vicuna-13B	224	41.0	–	1293.8	85.3	46.4	61.0	19.6	41.0
InstructBLIP [14]	Vicuna-13B	224	49.5	–	1212.8	78.9	–	63.1	33.4	–
Shikra [9]	Vicuna-13B	224	–	58.8	–	–	–	–	–	77.4 *
IDEFICS-80B [23]	LLaMA-65B	224	45.2	54.5	–	–	–	–	36.0	60.0
LLaVA-1.5 [32]	Vicuna-13B	336	63.3 *	67.7	1531.3	85.9	61.6	71.6	53.6	80.0 *
LLaMA-VID	Vicuna-13B	336	65.0 *	66.6	1542.3	86.0	62.3	70.0	54.3	80.0 *

表 3 : 在 8 个基准数据集上的领先方法比较。在这里，我们使用与 LLaVA-1.5 中相同的训练和指令微调数据。我们报告了 1 个上下文符元和 n 个内容符元的结果，其中 n 与 LLaVA-1.5 中保持一致，即， n = ( 336 / 14 ) 2 = 576 。为了公平比较，我们的模型是在没有图 3 中第 1 阶段和第 2 阶段的视频数据的情况下训练的。 Res 表示输入图像分辨率。 * 和 † 分别表示包含用于训练的 train 子集，并且数据不公开。

4 实验

在本节中，我们提供了实验设置，并与几个基准数据集上的领先方法进行了比较。更多细节在补充材料中。

4.1 实验设置

实现细节。在这项工作中，我们默认情况下使用预训练的 EVA-G [17] 作为视觉编码器，使用 QFormer [14] 作为文本解码器来实例化模型。在训练过程中，我们将视觉编码器固定在所有阶段，并将文本解码器以及 LLM 固定在模态对齐阶段，除了表 6 中没有预训练的 BERT 模块。遵循 [32] 中的策略，我们使用图 3 中设计的數據和指令优化可训练参数，在每个阶段运行 1 个 epoch。对于视频输入，我们以每秒 1 帧的速度提取帧。所有模型均使用 8 × NVIDIA A100 GPU 进行训练。其他超参数在补充材料中提供。

数据集. 在本研究中，我们主要从 [32, 5, 39, 21] 构建训练集，如第 3.3 节所示。此外，我们报告了几个基于视频和图像的基准测试结果。具体而言，对于视频输入，我们在开放式 QA 基准测试（如 MSVD [8] 、MSRVTT [58] 、ActivityNet [7] 和新提出的生成式性能基准测试 [39] ）上评估了零样本性能。关于基于图像的评估，我们在几个广泛采用的基准测试上进行了实验，包括 GQA [22] 、MMB (MMBench) [36] 、MME [18] 、POPE [31] 、SEED [28] 、SQA I （ScienceQA 中基于图像的设置） [37] 、VQA T （TextVQA） [50] 、VizWiz [20] 和 VQA v2 （VQA V2） [19] 。

图 5 : 使用基于 Vicuna-7B 的模型，LLaMA-VID 在单张图像、短视频和时长一小时的视频上的示例。

4.2 主要结果

基于视频的基准测试结果。在表 1 中，我们提供了 LLaMA-VID 与各种最先进方法在三个零样本视频 QA 基准测试上的比较评估：MSVD-QA [8] 、MSRVTT-QA [58] 和 ActivityNet-QA [7] 。值得注意的是，结果是针对每帧只有两个符元进行报告的。显然，LLaMA-VID 使用 Vicuna-7B 和 Vicuna-13B 作为 LLM，在所有数据集上始终如一地提供卓越的性能。在 MSVD-QA 和 MSRVTT-QA 数据集上，它使用 Vicuna-7B 达到了 69.7% 和 57.7% 的准确率，超过了之前的领先方法 [34] ，绝对增益分别为 2.2% 和 0.7%。至于 ActivityNet-QA 数据集，LLaMA-VID 在准确率方面取得了最佳性能，并获得了 3.3 的最高分。在表 2 中，我们还在新提出的基于视频的生成性能基准 [39] 上进行了实验。我们的 LLaMA-VID 已被验证在所有评估指标中都取得最佳性能，远远超过了以前的方法。并且我们发现，随着 LLM 的规模扩大，性能可以进一步提高。总体而言，LLaMA-VID 被证明在所有基准测试中都具有强大的性能，验证了其在视频处理方面的有效性和效率。

基于图像的基准测试结果。如第 3.2 节所示，LLaMA-VID 不仅可以有效地表示长视频，还可以通过一个额外的上下文符元来扩展 VLM 的上限。在表 3 中，我们对 8 个广泛采用的基准测试进行了与领先 VLM 的比较。值得注意的是，为了公平比较，我们保持了与 LLaVA-1.5 [32] 相同的训练数据和图像分辨率。显然，LLaMA-VID 在大多数使用不同 LLM 的基准测试中都优于其他领先方法。特别是，以 Vicuna-7B 作为 LLM，LLaMA-VID 在所有数据集上都取得了最佳结果，并在 GQA、MME 和 VizWiz 上显著超过 LLaVA-1.5，其中改进幅度分别达到 2.3%、10.7% 和 4.2%。以更大的 Vicuna-13B 作为 LLM，LLaMA-VID 在 6 个基准测试中也优于其他方法，并在其他数据集中排名第二。这证明了所提出的 LLaMA-VID 的通用性，它可以与更强大的基础模型进行扩展。总之，LLaMA-VID 被证明可以提高 VLM 的上限，尤其是在高效设置中。

定性结果。在图 5 中，我们将 LLaMA-VID 应用于不同类型的数据，包括单张图像、短视频和长电影。我们用 577 个符元来表示单张图片，用 2 个符元来表示视频。 LLaMA-VID 展示了在不同输入下各种能力。具体来说，对于单张图片，它专注于细节，并在没有任何文本线索的情况下准确识别人物。此外，它还能将图像内容与多轮对话中的游戏剧情联系起来。给定一个简短的预告片视频，LLaMA-VID 会总结整个剧情，并推断出电影名称、制作人和电影类型。对于一部 3 小时的电影，该模型熟练地描述了故事情节，并展示了与剧情相关的推理和详细理解。

4.3 逐组件分析

在本小节中，我们默认情况下使用输入分辨率 224 和每张图片 2 个符元进行消融研究。在这里，我们主要在基于图像的设置上进行实验，以调查每个组件的有效性。

生成的符元类型。如图 2 所示，每个图像在 LLM 中用一个上下文符元和一个内容符元表示。为了验证每个部分的有效性，我们在表 4 中对不同类型的符元进行了实验。没有上下文符元，压缩的内容符元，用 1 个符元编码每张图片，无法适应输入指令，导致性能低下。与单个内容符元相比，指令引导的上下文符元在所有数据集上都取得了显著的收益，仅用 1 个符元。对每张图像使用两个符元，该模型在所有基准测试中取得了最佳性能。这表明上下文符元中的指令提示和内容符元中的图像内容本身都很重要。

context	content	GQA	POPE	SQA 𝐈	VQA 𝐓
✗	✓	53.3	80.9	66.1	46.5
✓	✗	54.3	82.4	67.7	48.3
✓	✓	55.5	83.1	68.8	49.0

表 4 : 与不同符元类型的比较。我们报告了使用 1 个上下文符元（如果存在）和 1 个内容符元的结果。

生成的符元数量。在表 5 中，我们进行了使用不同数量符元的实验，以便进一步研究。在图像大小为 224 × 224 的情况下，我们进行了使用 n 个内容符元的实验，其中 n = ( 224 / 14 ) 2 = 256 用于前两行中的未压缩设置。