专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

SA2VA：将SAM2与llava嫁给图像和视频的密集理解

FightingCV · 公众号 · · 2025-02-09 09:00

正文

摘要

本文介绍了 Sa2VA ，这是第一个用于图像和视频密集语义理解的统一模型。与现有的多模态大型语言模型（通常仅限于特定模态和任务）不同，Sa2VA支持广泛的图像和视频任务，包括参照分割和对话，只需最少的单样本指令调优。 Sa2VA将SAM-2（一个基础视频分割模型）与LLaVA（一个先进的视觉语言模型）相结合，并将文本、图像和视频统一到共享的LLM符元空间中。利用LLM，Sa2VA生成指导SAM-2生成精确掩码的指令符元，从而实现对静态和动态视觉内容的语义化、多模态理解。此外，我们还引入了Ref-SAV，这是一个包含超过72,000个复杂视频场景中物体表达的自动标注数据集，旨在提升模型性能。我们还在Ref-SAV数据集中手动验证了2000个视频物体，以对复杂环境下的视频物体参照分割进行基准测试。实验表明，Sa2VA在多个任务中取得了最先进的结果，尤其是在视频物体参照分割方面，突出了其在复杂现实世界应用中的潜力。代码、数据集和模型已发布，以供进一步研究。

图1 ：我们提出的Sa2VA的能力图示。 (a). 给定一个视频，Sa2VA能够分割所指物体并理解整个场景。（b）.SA2VA支持图像对话，视频对话，图像参考细分，视频参考细分和通过单次指示进行接地字幕生成。 (c). 与现有的多模态大型语言模型（如GLaMM [66] 和OMG-LLaVA [99] ）相比，Sa2VA在多个图像、视频参照分割和聊天基准测试中取得了显著的成果。

1 引言

随着大型语言模型 (LLM) 的快速发展，多模态大型语言模型 (MLLM) 取得了显著进展 [73, 33, 86] 。它们受益于各种图像和视频级别的任务，例如视觉问答 (VQA) [1, 70] 、叙事故事生成 [87, 26, 104] 和交互式编辑 [76, 39, 30] 。

一个重要的方向是以细粒度的方式理解视频内容，包括使用语言描述分割和跟踪像素，以及对视频中的视觉提示进行 VQA。特别地，我们希望实现视频的可提示细粒度分析，因为用户在交互模式下播放视频时可以参与其中，如图 1 (a) 所示。这导致了各种应用，例如短视频编辑 [6, 75, 58] 、机器人导航 [23, 24, 21] 和监控分析 [63] 。

但是，最先进的视频感知模型 [11, 48, 98, 67] 或视频 MLLM [95, 50, 55, 43] 都无法实现这一点。前者受限于受约束的语义概念，缺乏开放式能力（视频 VQA 或命名视频聊天任务）。例如，最新的基础模型 SAM-2 [67] 可以实现可提示的分割和跟踪。但是，它无法执行文本感知任务，例如理解语言表达或视频对话。另一方面，视频 MLLM [51, 55, 42, 50] 可以理解长视频并执行 VQA。例如，最新的 LLaVA [42] 在视频 VQA 上取得了良好的结果。但是，它无法执行感知任务，也无法理解视觉提示。有几项工作 [99, 18, 85] 探索了感知模型和 MMLM 的组合。但是，大多数工作都探索图像数据集或试图解决一个特定的视频理解任务。据我们所知，没有哪项工作能够同时利用双方的优势。

通过以上分析，在这项工作中，我们迈出了第一步，将两个视觉基础模型 SAM-2 [67] 和 LLaVA 类 MLLM [53] 统一到一个框架中。通过这种方式，我们的模型不仅继承了SAM-2的时空感知能力和MLLM的开放式能力，而且受益于其细粒度训练数据中获得的额外知识。然而，为了实现这一目标，必须解决三个关键挑战：（1）任务制定：如何在单次训练环境中有效地制定一系列任务，特别是对于多模态输入。特别是对于视频感知任务和视频VQA任务。先前的研究 [85, 18] 只解决了其中一部分。（2）性能平衡：如何解决任务之间的冲突，例如，如何确保强大的视觉理解能力而不牺牲MLLM的语言能力。请注意，先前的工作 [99, 82] 发现，在执行定位任务时，对话任务会退化。（3）知识共享：如何利用来自SAM-2和MLLM的预训练知识，构建一个强大统一的模型。 SAM-2 使用超过 10 亿个掩码进行训练，大多数 MLLM 使用大量的指令对进行训练。

我们提出了Sa2VA，这是第一个将SAM-2与LLaVA类MLLM集成的模型，它创建了对图像和视频的统一、基于基础的理解。我们将各种任务制定为单次视觉指令调优格式，包括图像和视频的参考分割、视觉问答 (VQA) 和基于基础的对话生成 (GCG)。我们的关键见解是利用LLM灵活的符元长度处理能力，将所有输入图像、视频和视觉提示视为视觉符元，而无需额外的特定设计。通过联合协同训练，我们证明了定位和对话任务之间的冲突可以有效解决。与使用MLLM作为代理或连接器来调用视觉专家的现有方法不同，我们的模型是端到端训练的，展示了模型和数据集的可扩展性。此外，我们采用了解耦设计，其中SAM-2的解码器和内存模块被冻结，使我们能够保留SAM-2的感知和跟踪能力。此设计也使我们的方法成为一个即插即用的模块，使我们的模型能够使用最新的MLLM进行更新。

此外，我们引入了一个具有挑战性的参考视频分割数据集Ref-SAV，该数据集是基于源SA-V数据集 [67] 通过自动流程整理的。我们通过实证观察发现，现有的参考视频分割数据集规模小、片段短，且遮挡较少。我们在这个数据集上对几个现有的模型进行了基准测试，发现仍有很大的改进和进一步探索的空间。

表1 ：不同代表性模型能力的比较。我们的方法支持各种任务和模式。得益于视频中这些交互式特性，Sa2VA可以执行视频中的多个可提示任务，如图 1 (a)和(b)所示。

Method	Support Inputs			Dense Grounding				Conversation				End to End
Method	Image	Video	Visual Prompts	RES	Ref-VOS	Inter-VOS	GCG	Image-Chat	Video-Chat	Video Caption	Interactive Caption	Training
LLAVA [53]	2713	2717	2717	2717	2717	2717	2717	2713	2717	2717	2717	2713
LLaVA-OneVision [42]	2713	2713	2717	2717	2717	2717	2717	2713	2713	2713	2717	2713
InternVL 2.0 [9]	2713	2713	2717	2717	2717	2717	2717	2713	2713	2713	2717	2713
Osprey [92]	2713	2717	2713	2717	2717	2717	2717	2713	2717	2717	2717	2713
LISA [40]	2713	2717	2713	2713	2717	2717	2717	2717	2717	2717	2717	2713
GLAMM [66]	2713	2717	2713	2713	2717	2717	2713	2717	2717	2717	2717	2713
VIP-LLaVA [5]	2713	2717	2713	2717	2717	2717	2717	2713	2717	2717	2717	2713
VISA [85]	2713	2713	2713	2713	2713	2717	2717	2717	2717	2717	2717	2717
OMG-LLaVA [99]	2713	2713	2713	2713	2713	2717	2717	2713	2713	2717	2717	2713
PSALM [101]	2713	2713	2717	2713	2717	2717	2717	2717	2717	2717	2717	2713
GSVA [83]	2713	2717	2717	2713	2717	2717	2717	2717	2717	2717	2717	2713
LLaMA-VID [50]	2713	2713	2717	2717	2717	2717	2717	2713	2713	2713	2717	2713
ST-LLM [56]	2713	2713	2717	2717	2717	2717	2717	2713	2713	2713	2717	2713
F-LLM [82]	2713	2717	2717	2713	2717	2717	2717	2713	2717	2717	2717	2717
Sa2VA (Ours)	2713	2713	2713	2713	2713	2713	2713	2713	2713	2713	2713	2713

Sa2VA采用多数据集协同训练进行训练，包括图像和视频数据集。 Sa2VA在六个参考图像和视频分割数据集上取得了最先进的结果，同时与之前的MLLM相比，保持了强大的图像和视频聊天能力，如图 1 (c)所示，这并没有采用任何复杂的技巧。在Ref-SAV上，我们的方法在零样本测试设置下比之前的方法提高了15%以上，并且使用我们提出的Ref-SAV训练集获得了更好的结果。如图 1 (c)所示，我们的工作为图像和视频的统一、密集、基于语境的理解建立了一个新的强大的基线。总体而言，我们的贡献如下：

•

从视觉符元（token）的角度来看，我们重新思考了几个任务，包括图像聊天、图像参考分割、视频聊天、参考视频对象分割和基于语境的字幕生成。我们将所有这些任务制定为一个单一的指令调优过程。
•

我们开发了Sa2VA，这是一个第一个将SAM-2和类似LLaVA的模型组合到一个模型中的简单框架，其中我们实现了时空语境理解。我们引入了一个简单的解耦框架，其中包含一个共享的SEG符元（token）。我们还提出了一种简单的掩码跟踪方法，方法是重新利用SAM-2的知识。
•

我们引入了一个具有挑战性的参考视频对象分割基准Ref-SAV，并对每个示例进行了人工检查。该基准引入了更严重的遮挡、较长的文本输入和运动模糊。我们还开发了一个简单的数据标注流程来构建Ref-SAV训练数据集，其中我们发现训练数据集提高了模型在Ref-SAV上的性能。

2 相关工作

多模态大语言模型。早期工作 [44, 45, 31] 探索了更好的多模态融合方法和特征提取器，并设计了各种融合架构，特别是针对视觉语言任务。随着先进的LLM框架 [4, 73, 33] 的出现，在LLM上进行多模态指令调优 [2, 71, 53, 8] 成为主要流程。然后，各种基准 [32, 59, 49, 19, 72] 涌现出来，并成为实现更强性能的更好来源，这意味着数据在当前MLLM中扮演着核心角色。一个具有代表性的工作，LLaVA [53] ，将视觉特征视为视觉符元。作者还提供了一种统一的数据格式来统一大量的VQA任务。此后，一些工作 [92] 探索了更强的视觉线索来增强LLaVA的视觉输入。同时，一些工作 [96, 94, 68, 97, 14, 15, 51, 95, 65, 29, 40] 添加了额外的组件来适应LLaVA进行视觉定位、检测、分割和视频VQA。最近，还出现了一种新的趋势 [42, 55] ，即在一个框架中统一图像、视频和多图像分析。 LLaVA-OneVision [42] 设计了一个单一模型来处理四种不同的输入源。在视觉感知方面，一些工作 [84, 48, 67] 也探索了多数据集和多任务协同训练。 SAM-2 [67] 设计了一个统一的系统，用于联合图像和视频交互式分割。我们的模型Sa2VA将SAM-2集成到当前的VLM模型中，形成一个端到端的模型，旨在统一图像和视频以实现密集的、基于语境的理解，包括分割、对话和字幕生成。

指代分割。此任务旨在根据语言描述输出特定的掩码（对于图像输入）或跟踪掩码（对于视频输入）。早期工作 [91, 52, 38, 13, 80, 101] 探索了各种融合模块以获得更好的性能。然后，一些更强大的模型 [84] 采用基于Transformer的方法来实现视频中统一的分割和跟踪。配备LLM后，一些最新工作 [40, 99, 83, 65] 提出了更复杂的指代任务，包括推理指代或联合掩码和字幕生成。例如，LISA [40] 涉及基于推理的分割。然后，GLaMM [66] 标注了一个新的数据集，并提出了区域级字幕和分割任务。同时，最近的一些工作探索了在指代分割和对话方面的联合指令调优。我们的方法借助SAM-2将这些研究扩展到视频领域，同时在图像/视频指代任务和VQA任务上保持更强的性能。

视频分割和语义定位。当前的视频分割方法 [47, 34, 105] 专注于在封闭集合中分割和跟踪像素。一些工作 [25, 103] 探索了开放词汇量设置。然而，与LLM的知识空间相比，这些概念仍然有限。对于视频语义定位，最近的一些工作 [28] 探索将LLM应用于视频和音频的联合理解。然而，缺乏细粒度的时空建模或足够的图像数据用于协同训练，这使得结果缺乏说服力。我们的模型Sa2VA，为当前密集视频感知模型增加了交互式聊天和开放式理解功能，并实现了强大的视觉问答（VQA）性能。

3 方法

图2 : 我们提出的Sa2VA模型。模型首先将输入文本、视觉提示、图像和视频编码为符元嵌入。然后，这些符元通过一个大型语言模型（LLM）进行处理。输出文本符元用于生成[SEG]符元和相关的语言输出。 SAM-2解码器接收来自SAM-2编码器的图像和视频特征，以及[SEG]符元，以生成相应的图像和视频掩码。

3.1 统一多任务表示

由于这些任务的格式不同，开发一个用于解决不同图像和视频理解任务的统一模型具有挑战性。为克服这一问题，我们首先重新审视任务公式，并提出了一种统一的表示方法，为Sa2VA的开发奠定了基础。

基于图像/视频对象的分割。对于图像参照分割，给定输入文本符元 T i ∈ ℝ N × D ，模型接收输入图像 I i ∈ ℝ H × W × 3 并输出与文本描述一致的相应二元掩码 M o ∈ ℝ H × W 。 N 和 D 分别代表文本符元的数量和维度。对于视频对象参照分割，模型接收输入视频 V i ∈ ℝ T × H × W × 3 并输出二元时空掩码（masklets） M o ∈ ℝ T × H × W 。 T 、 H 和 W 分别代表视频帧数、高度和宽度。

图像/视频聊天和基于图像的字幕生成。对于图像和视频聊天任务，给定输入文本符元 T i 和对应的图像 I i 或视频 V i ，模型输出答案文本 T o 。对于基于图像的字幕生成任务，模型联合输出对应的掩码 M o 和对齐的文本 T o 。

视觉提示理解任务。对于视觉提示理解任务，除了文本符元 T i 和图像 I i 之外，模型还将额外的视觉提示符元 V ⁢ P i （图像上的框或点）作为输入，并输出对应的掩码 M o 和对齐的文本答案 T o 。

统一的任务表示。现有工作通过特定设计的模型或部分统一模型（不同的任务具有不同的模型权重）来解决上述任务。在这项工作中，我们指出，所有上述任务都可以统一为一个单次指令调优过程，因为我们可以利用大语言模型的灵活性来处理各种视觉符元。整个过程可以表述如下：

对于仅聊天的任务，模型只输出文本符元 T o 。对于参考分割任务，模型输出掩码（图像）或掩码片段（视频） M o 。对于基于图像的字幕生成任务，模型同时输出文本和掩码。对于不同的任务，输入的视觉符元会根据具体任务而变化。由于 M o （无论是图像掩码还是掩码片段）可以用SEG符元控制，一个SEG符元代表SAM-2解码器的一个提示输入。因此，将所有这些任务放入一个共享的编码器-解码器框架中并共同训练一个大型语言模型并微调SAM解码器是很自然的。

图3 数据标注流程 . 我们提出的自动数据标注流程包含三个阶段：对象/部件级、场景级和视频级文本表达标注。我们在最终表达中使用不同的颜色来突出显示从每个阶段获得的信息。最佳屏幕显示效果，请缩小。

3.2 Sa2VA 框架

Sa2VA 的整体架构如图 2 所示。它包含两个部分：类似 LLaVA 的模型和 SAM-2。

预训练的 MLLM。我们采用预训练的类似 LLaVA 的模型作为 MLLM。它包含一个视觉编码器、一个视觉投影层和一个大型语言模型 (LLM)。视觉编码器以图像、视频和子图像作为输入。视觉投影层将输入映射到视觉符元。这些符元与输入文本符元结合，构成 LLMs 的输入，并进行输出文本符元预测。请注意，我们采用预训练的 MLLM，这遵循了之前的研究工作 [99, 66, 40, 85] 。对于图像和视频聊天数据集，我们遵循相同的流程 [9, 2] ，无需进一步修改。

解耦设计。我们将SAM-2与预训练的LLaVA模型一起添加。我们没有将SAM-2的输出符元（视觉特征或解码器输出）输入到LLM中。有三个原因。首先，我们希望使组合尽可能简单，而不会增加额外的计算成本。其次，添加额外的符元需要额外的对齐过程。第三，通过这种设计，我们可以充分将我们的工作作为一个即插即用的框架来利用预训练的MLLM，因为MLLM社区发展迅速。因此，我们采用了一种解耦设计，避免了LLaVA和SAM-2之间进一步的通信。

通过SEG符元微调SAM-2解码器。我们通过特殊符元“[SEG]”连接SAM-2和MLLM。 “[SEG]”符元的隐藏状态被用作一种新型提示，并馈入SAM-2的解码器，其中它们被解码成分割掩码。 “[SEG]”的隐藏状态可以被看作是SAM-2的一种新的时空提示。 SAM-2根据时空提示分割图像和视频中相应的目标掩码。在训练期间，可以微调SAM-2解码器以理解时空提示，并且可以将梯度反向传播到“[SEG]”符元到MLLM，从而使其能够更好地输出时空提示。

利用SAM-2知识进行掩码跟踪。对于Ref-VOS任务，我们设计了一个简单的框架，在公共基准测试中取得了显著的成果。特别是，对于给定的输入视频，我们采用“[SEG]”符元来生成关键帧的掩码。然后，我们使用关键帧特征编码的记忆来生成剩余帧的掩码。我们在附录中详细介绍了这个过程。

3.3 Ref-SAV数据集和基准

数据标注流程。我们精心设计了一个自动标注流程，为SA-V数据集 [67] 生成参照对象文本表达式。如图 3 所示，该流程包含3个阶段：

1.

对象/部件级标注。我们首先从视频中选择对象区域最大的帧，并屏蔽掉非对象像素。然后将裁剪后的图像和完整图像分别送入InternVL2-76B [9] 生成详细描述。这些描述由Qwen2-72B [86] 进行一致性检查，并将冲突的描述丢弃。
2.

场景级标注。使用黄色轮廓突出显示图像中的对象。图像和上一阶段的对象/部件级描述都送入InternVL2-76B [9] 以生成详细的对象描述，其中包括与场景和周围对象的关系。
3.

视频级标注。我们从视频中均匀采样8帧，使用黄色边框突出显示每一帧中的对象。这些帧以及场景级描述由InternVL2-76B处理以生成视频级描述，捕捉对象的运动和动作。

表2 : 图像/视频参考分割基准和图像/视频聊天基准的实验结果。

Method	Image Segmentation			Video Segmentation			Image Chat			Video Chat		GCG
Method	RefCOCO [36]	RefCOCO+ [36]	RefCOCOg [90]	MeViS [13]	Ref-DAVIS17 [38]	ReVOS [85]	MME [19]	MMBench [59]	SEED-Bench [41]	Video-MME [20]	MMBench-Video [17]	GCG [66]
LLAVA-1.5-13B [54]	-	-	-	-	-	-	1531	68.8	70.1	-	-	-
Video-LLaVA-7B [51]	-	-	-	-	-	-	-	60.9	-	39.9	1.03	-
LLaMA-VID-7B [50]	-	-	-	-	-	-	1521	65.1	59.9	-	1.08	-
mPLUG-Owl3-8B [89]	-	-	-	-	-	-	-	77.6	-	53.5	1.35	-
InternVL2-8B [9]	-	-	-	-	-	-	-	81.7	76.2	54.0	1.28	-
PixelLM-7B [68]	73.0	66.3	69.3	-	-	-	309/135	17.4	-	-	-	-
LaSagnA [77]	76.8	66.4	70.6	-	-	-	0/0	0.0	-	-	-	-
LISA-7B [40]	74.1	62.4	66.4	-	-	-	1/1	0.4	-	-	-	-
GLaMM-7B [66]	79.5	72.6	74.2	-	-	-	14/9	36.8	-	-	-	28.9
LLaVA-G-7B [96]	77.1	68.8	71.5	-	-	-	-	-	-	-	-	-
GSVA-13B [83]	79.2	70.3	75.7	-	-	-	-	-	-	-	-	-
OMG-LLaVA-7B [99]	78.0	69.1	72.9	-	-	-	1177/235	47.9	56.5	-	-	29.9
VISA-13B [85]	72.4	59.8	65.5	44.5	70.4	50.9	-	-	-	-	-	-
Sa2VA-1B (Ours)	77.4	69.9	72.3	50.8	72.3	47.6	1381/405	68.3	64.8	39.9	1.07	23.8
Sa2VA-4B (Ours)	78.9	71.7	74.1	52.1	73.8	53.2	1536/530	77.3	73.3	50.4	1.23	28.2
Sa2VA-8B (Ours)	81.6	76.2	78.7	57.0	75.2	57.6	1617/511	81.6	75.1	52.1	1.34	31.0
Sa2VA-26B (Ours)	82.5	78.8	79.7	57.3	77.0	58.4	1691/538	83.7	76.8	52.6	1.45	33.5

Ref-SAV训练数据集。使用上述流程，我们已自动为SA-V数据集标注了详细的对象表达，从而创建了Ref-SAV数据集。该数据集包含37,311个视频和72,509个对象表达。值得注意的是，我们避免了对对象表达进行增强，确保每个对象只有一个对应的表达。

Ref-SAV评估基准。我们从SA-V数据集的训练集中选择一部分视频来构建Ref-SAV评估基准，因为验证集和测试集只包含有限数量的视频。这些视频与Ref-SAV的训练数据集严格正交。评估基准包括两部分：1) 长表达集，使用上述自动标注流程生成，并由人工标注者仔细筛选。 2) 短表达集，完全由人工标注。评估基准包含1,147个视频和1,945个对象表达，其中1,694个是长表达，251个是短表达。有关训练和测试参考示例，请参阅附录。

3.4 Sa2VA训练和测试。

一对多协同训练。 Sa2VA是多数据集协同训练的。对于视觉问答 (VQA) 任务，我们采用文本回归损失 L t ⁢ e ⁢ x ⁢ t ，如同常用的多模态大语言模型 (MLLM)。对于分割任务 L m ⁢ a ⁢ s ⁢ k ，我们应用像素级的交叉熵损失 L C ⁢ E 和Dice损失 L D ⁢ I ⁢ C ⁢ E 。需要注意的是，与之前的工作 [53] 不同，我们没有预训练阶段，而是在单次训练中进行监督式微调。

在第 4 节中，除了对一个模型进行协同训练外，我们还根据 [66, 99] 报告了针对单一任务的特定微调模型，以进行公平比较。

一对所有测试。所有任务都可以包含在公式 1 的范式中。在推理阶段，我们将必要的任务需求，例如文本提示、视觉提示、图像和视频特征，编码成符元，然后输入到大型语言模型 (LLM) 中。然后，根据任务定义，将LLM的输出符元解码为文本响应（LLM预测头）、分割掩码（SAM-2解码器）和SAM-2掩码跟踪模块响应。我们强烈建议读者查看附录中的详细模型推理表。

4 实验

基线。我们通过结合最先进的多模态大型语言模型 (MLLM)，例如InternVL2 [9] 和SAM2 [67] 来构建基线。与之前的工作 [40, 66, 99] 类似，分割掩码是通过使用SAM2的解码器解码[SEG]符元的隐藏状态获得的。受Mask2Former-VIS [10] 的启发，一个对象在整个视频帧中共享相同的[SEG]符元，这使得我们的模型能够以统一的方式处理图像和视频参考分割任务。此外，我们进一步使用了更先进的MLLM模型InternVL2-5来展示Sa2VA的模型缩放效果。

表3 ：用于实验的数据集。

Type	Datasets
Image QA	LLaVA 1.5 (665K)
Image Segmentation	RefCOCO (17K), RefCOCO+ (17K), RefCOCOg (22K), Grand-f (214K)
Video QA	ChatUniVi (100K)
Video Segmentation	Ref-YTVOS (3.5K), MeVIS (0.6K), ReVOS (1.7K), Ref-SAV (37K)

表4 ：图像级基准测试的性能。我们的方法在图像聊天和参考分割数据集之间实现了最佳的精度权衡。

Method	MME [19]	MMBench [59]	SEED-Bench [41]	AI2D [37]	MMStar [7]	MMMU [93]	SQA ^test [60]	RefCOCO	RefCOCO+	RefCOCOg
LISA-7B [40]	1/1	0.4	-	0.0	-	-	-	74.1	62.4	66.4
PixelLM-7B [68]	309/135	17.4	-	0.0	-	-	-	73.0	66.3	69.3
LaSagnA-7B [77]	0/0	0.0	-	0.0	-	-	-	76.8	66.4	70.6
GLaMM-7B [66]	14/9	36.8	-	28.2	-	-	-	79.5	72.6	74.2
OMG-LLaVA-7B [99]	1177/235	47.9	56.5	42.9	-	-	-	78.0	69.1	72.9
Sa2VA-4B (ours)	1553/540	76.8	72.6	79.9	53.7	46.2	95.8	80.4	74.3	76.7
Sa2VA-8B (ours)	1651/578	82.4	75.5	82.1	60.3	44.7	96.8	81.9	76.5	78.9

表5 ： Ref SAV 验证集。 zs：零样本测试。 ft：使用我们提出的 Ref-SAV 训练数据集进行训练。

Method	Long			Short			Overall
Method	J	F	J&F	J	F	J&F	J	F	J&F
UniRef++ [79] (zs)	14.1	10.8	12.5	9.0	8.2	8.6	11.6	9.5	10.5
UNINEXT [84] (zs)	11.7	8.3	10.0	5.8	4.4	5.1	8.8	6.4	7.6
MeVIS [13] (zs)	12.1	7.1	11.3	6.2	5.3	5.5	12.2	9.8	10.3
VISA [85] (zs)	16.1	12.2	14.1	12.3	9.6	9.2	13.2	11.3	11.8
Sa2VA-8b (zs)	47.7	50.9	49.3	31.5	35.0	33.3	39.6	43.0	41.3
Sa2VA-8b (ft )	57.0	60.4	58.7	39.5	42.9	41.2	48.3	51.7	50.0

数据集和指标。我们使用四种类型的数据集来训练 Sa2VA，包括图像问答、视频问答、图像分割和视频分割数据集。如表 3 所示，Sa2VA 的训练数据包含大约 110 万对图像文本或视频文本。由于 InternVL2 已经使用大量的图像问答和视频问答数据进行了训练，我们只使用了 66.5 万个 LLaVA 1.5 [57] 和 10 万个 ChatUniVi [35] 数据，以防止 MLLM 忘记其图像和视频问答能力。我们使用了 5.6 万个参考表达式数据 [36, 90] 和 21.4 万个图像级文本驱动分割的 grounding 对话生成数据 [66] 。对于视频级参考表达式分割，我们使用了来自 Ref-YouTubeVOS [69] 、MeVIS [13] 和 ReVOS [85] 的 5.8 万个现有参考 VOS 数据。此外，我们还使用了 3.7 万个由我们提出的自动标注管道生成的长文本参考 VOS 数据，以增强 Sa2VA 对长参考文本的理解及其对复杂视频的对象定位能力。对于图像参考分割，我们采用 cIoU。对于参考视频目标分割，我们采用J&F方法。对于图像和视频聊天任务，我们遵循先前的工作 [53, 50] 并相应地报告性能。

实现细节。我们采用XTuner [12] 代码库进行训练和测试。在指令调优阶段，初始学习率设置为4e-5，仅保持感知模型冻结，并使用LoRA [27] 对大语言模型进行微调。大语言模型中的最大序列长度设置为8192。所有训练都在八个具有80GB内存的NVIDIA A800 GPU上进行。指令调优阶段耗时48小时。我们采用VLMEvalKit [16] 进行聊天评估。对于我们的基准测试，我们采用原始开源代码库 [84, 79, 85] 和模型权重来推断视频结果。每个任务的更详细设置可以在附录中找到。

4.1 主要结果

与最先进的多模态大语言模型的比较。如表 2 所示，Sa2V-8B在RefCOCO、RefCOCO+和RefCOCOg上分别实现了81.6、76.2和78.9 cIoU，超过GLaMM-7B 2.1、3.6和4.5 cIoU。毫无疑问，Sa2VA在RefCOCO+和RefCOCOg上取得了新的最先进的结果，显著优于之前的基于 grounding 的多模态大语言模型，包括LISA、GLaMM、PixelLLM、PSALM和OMG-LLaVA。同时，Sa2VA还在对话方面展现出强大的能力，在MME、MMbench和SEED-Bench上分别取得了2128、81.6和75.1的分数，而现有的基于grounding的多模态大语言模型在对话方面表现不佳。Sa2VA在图像问答基准测试中取得了与InternVL2相当的性能，这表明Sa2VA在很大程度上保留了基础多模态大语言模型InternVL2的图像聊天性能。