专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

ReferDINO：基于视觉基础模型的视频对象指称分割

FightingCV · 公众号 · · 2025-02-12 09:00

正文

摘要

视频对象指称分割 (RVOS) 旨在根据文本描述分割整个视频中的目标对象。尽管近年来取得了显著进展，但由于其有限的视频语言理解能力，目前的 RVOS 模型仍然难以处理复杂的物体描述。为了解决这一限制，我们提出了 ReferDINO ，这是一个端到端的 RVOS 模型，它继承了预训练视觉基础模型强大的视觉语言理解能力，并进一步赋予了有效的时空理解和目标分割能力。在 ReferDINO 中，我们为有效地将基础模型应用于 RVOS 做出了三项技术创新： 1) 一种目标一致性时间增强器，它利用预训练的目标-文本表示来增强时间理解和目标一致性； 2) 一种基于 grounding 的可变形掩码解码器，它整合文本和 grounding 条件以生成精确的目标掩码； 3) 一种置信度感知查询剪枝策略，它在不影响性能的情况下显著提高了目标解码效率。我们在五个公共 RVOS 基准数据集上进行了大量实验，以证明我们提出的 ReferDINO 显著优于最先进的方法。项目页面：https://isee-laboratory.github.io/ReferDINO。

1 引言

视频对象指称分割 (RVOS) [2, 35] 旨在分割视频中由给定文本描述所指的目标对象。这项新兴任务可能对许多交互式视频应用有利，因此受到了计算机视觉领域的广泛关注。与单模态视频分割任务 [25, 36] 相比，RVOS 更具挑战性，因为它需要强大的视觉语言能力来理解复杂的描述并将视觉对象与文本关联起来。

图1 ： (a) 最先进的方法 [22] 无法处理涉及复合对象属性和空间位置的描述。 (b) GroundingDINO [21] 既不能理解时间动态，也不能执行像素级分割。

尽管近年来取得了显著进展，但现有的 RVOS 模型 [2, 35, 22, 24, 37, 8] 仍然存在许多常见问题。例如，如图 1 (a)所示，它们常常难以处理涉及复杂物体属性和空间位置的描述。这些问题主要源于当前模型视觉-语言能力不足，而这反过来又源于可用RVOS数据规模和多样性的限制。

在这项工作中，我们提出了 ReferDINO ，这是一种端到端的RVOS方法，它通过继承基础视觉定位模型强大的视觉-语言理解和空间定位能力，有效地解决了上述问题。以GroundingDINO [21] 为代表，这些基础模型受益于广泛的图像-文本预训练，并在理解复杂的物体-文本关联方面展现出强大的潜力。

将视觉定位模型应用于RVOS任务的关键挑战在于缺乏时间理解和像素级分割能力，如图 1 (b)所示。为了弥合这些差距并实现对RVOS的有效适应，我们在ReferDINO中提出了三个关键创新。首先，我们引入了一个对象一致性时间增强器，它利用来自基础模型的跨模态文本表示来促进跨帧对象交互，从而提高时间理解和对象一致性。其次，我们详细阐述了一个基于定位的可变形掩码解码器，它通过高效的注意力机制整合文本和定位条件，以实现精确的对象分割。第三，我们设计了一种置信度感知查询剪枝策略，以在不影响性能的情况下缓解计算瓶颈，使我们的ReferDINO能够满足视频任务的效率需求。

这些设计充分释放了预训练基础模型的空间定位知识，并赋予ReferDINO有效的时间理解和对象分割能力。如图 1 所示，我们的ReferDINO克服了最先进RVOS模型和视觉定位模型的局限性，实现了精确的参考视频对象分割。

在五个公共RVOS基准上的大量实验经验证明，ReferDINO比最先进(SOTA)方法有了显著改进。例如，在Ref-DAVIS17数据集上，使用Swin-B主干网络的ReferDINO比SOTA方法高出4.0% 𝒥 & ℱ 。此外，与结合GroundingDINO和SAM2 [27] 用于RVOS的竞争基线 [1] 相比，ReferDINO在性能方面展现出显著优势。例如，在Ref-Youtube-VOS数据集上，使用Swin-T主干网络的ReferDINO将基线提高了12.0% 𝒥 & ℱ 。这些结果证实了我们的设计优于基础模型的有效性。我们总结我们的贡献如下：

•

据我们所知，ReferDINO是第一个将基础视觉定位模型适配到RVOS的端到端方法。
•

我们在ReferDINO中引入了三个关键创新，以实现高效的目标解码、有效的时序理解和准确的目标分割。
•

我们的ReferDINO在五个公开的RVOS基准测试中显著优于最先进的方法。

2 相关工作

图2 ： ReferDINO的整体架构。以蓝色着色的模块借自GroundingDINO，而以红色着色的模块是这项工作中新引入的。基于逐帧目标特征 { 𝒪 t } t = 1 T ，我们的目标一致性时序增强器利用跨模态文本特征实现帧间目标交互。然后，我们的定位引导的可变形掩码解码器根据位置预测、跨模态文本特征和高分辨率特征图生成候选目标的掩码。为了进一步提高视频处理效率，我们在跨模态解码器中引入了一种置信度感知查询剪枝策略。最佳彩色视图。

视频对象参照分割。 RVOS [6, 5, 30] 旨在基于文本描述分割整个视频中的对象。 MTTR [2] 首先将DETR范式 [3] 引入RVOS。此外，ReferFormer [35] 提出从文本描述中生成查询。在此流水线的基础上，后续工作 [7, 24, 22, 37] 侧重于模块化改进，以提高跨帧一致性和时间理解。尽管在特定数据集上取得了显著进展，但这些模型受到视觉-语言理解不足的限制，并且经常难以处理未见过的物体或场景。最近，一些工作 [1, 12] 尝试利用GroundingDINO识别单帧中的物体，然后应用独立的分割模型，如SAM2 [27] ，来生成高质量的物体掩码。然而，这种模型集成方式效率低下且不可微。同时，它们的性能几乎完全依赖于GroundingDINO的静态检测质量。相比之下，我们的ReferDINO是一种端到端的自适应方法，它受益于GroundingDINO的开放世界知识和RVOS数据的特定知识。

视觉 grounding 基础模型。视觉 grounding [9, 11, 20, 29, 32, 33] 的目标是根据自然语言查询，定位图像中最相关的物体或区域。最近的基础性工作旨在通过区域文本匹配统一检测数据集和图像文本数据集，并利用大型图像文本数据来大规模增加训练词汇量。 GLIP [19] 将目标检测定义为一个 grounding 问题，利用额外的 grounding 数据来促进分层视觉-语言对齐。 GroundingDINO [21] 将大规模 grounding 预训练整合到强大的目标检测器DINO [38] 中，并进行深度跨模态融合。这些模型能够基于自然语言捕捉物体位置、属性和变化，并且已经在一些下游任务中进行了初步探索。例如，Video-GroundingDINO [34] 通过插入一个简单的时序自注意力模块，使GroundingDINO能够预测事件的时间边界。 Grounded-SAM [28] 直接连接GroundingDINO和SAM [16] 以实现文本提示的图像分割。在这项工作中，我们探索了将GroundingDINO应用于RVOS任务，并提出了三个关键创新点以实现高效的自适应。

3 背景：GroundingDINO

我们的方法建立在视觉接地基础模型 GroundingDINO [21] 的基础上，我们在此对其进行简要回顾。 GroundingDINO 是一种基于 DETR 架构的目标检测器，它将语言引入目标检测器以实现视觉接地。它主要由图像主干网络、文本主干网络、跨模态编码器-解码器 Transformer 架构、边界框预测头和分类预测头组成。

给定图像和文本对，GroundingDINO 采用双主干网络提取原始特征，然后将它们输入到跨模态编码器中，以获得增强的图像特征 𝑭 img 和文本特征 𝑭 text 。这些增强的跨模态特征用于初始化大量查询嵌入，这些嵌入被分别馈送到跨模态解码器以生成目标特征。最后，每个目标特征都被传递到边界框预测头和分类预测头以预测边界框和分数。在这里，分数被定义为目标特征和文本符元之间的相似度。为了适应 RVOS，我们将目标被文本指代的二元概率定义为所有符元中目标的最大分数。

4 推荐

我们在图 2 中说明了我们的 ReferDINO。给定一个包含 T 帧的视频片段和一个文本描述，我们使用 GroundingDINO 来导出每一帧的跨模态图像特征 𝑭 i ⁢ m ⁢ g t 、文本特征 𝑭 t ⁢ e ⁢ x ⁢ t t 和目标特征 𝒪 t 。然后，我们将所有目标特征 { 𝒪 t } t = 1 T 输入到对象一致性时间增强器（§ 4.1 ）中，该增强器执行帧间对象交互并导出时间增强的目标特征 { 𝒪 ~ t } t = 1 T 。这些特征通过接地引导的可变形掩码解码器（§ 4.2 ）传递以生成实例掩码，该掩码以位置预测、跨模态文本特征和高分辨率特征图作为条件。为了提高效率而不影响性能，我们在跨模态解码器中引入了一种置信度感知查询剪枝策略（§ 4.3 ）。我们在 § 4.4 中详细介绍了训练和推理。

4.1 对象一致性时间增强器

尽管GroundingDINO能够从单幅图像中检测参考对象，但这对于RVOS来说还不够可靠。首先，它缺乏捕捉视频中时间动态的能力，使其无法处理与运动相关的描述，例如“猫摇尾巴”。其次，视频帧经常包含相机运动模糊和受限的视角，这极大地削弱了GroundingDINO的时间一致性。为了克服这些限制，我们针对GroundingDINO提出了对象一致性时间增强器。此模块在文本指导下执行帧间对象交互，使我们的ReferDINO能够捕获视觉对象和文本描述之间有效的时间关联。

如图 3 所示，所提出的对象一致性时间增强器由一个记忆增强跟踪器和一个跨模态时间解码器组成。它接收两个输入：所有对象嵌入 { 𝒪 t } t = 1 T 和所有跨模态句子特征 { 𝒇 cls t } t = 1 T ，其中 𝒇 cls t 对应于文本特征 𝑭 text t 中的 [CLS] 符元。

Refer to caption — 图3 : 我们对象一致性时间增强器的示意图，其中 f c ⁢ l ⁢ s t 是第 t 帧的跨模态句子特征。

记忆增强跟踪器。在时间交互之前，我们需要使用跟踪器模块来对不同帧中的对象进行对齐。与以往工作 [5, 8] 中使用的仅考虑相邻帧之间对齐的跟踪器不同，我们集成了一个记忆机制来实现稳定的长期跟踪。令 ℳ t 表示第 t 帧的记忆，以及 ℳ 1 = 𝒪 1 。我们的记忆增强跟踪器包括两个步骤：对象对齐和记忆更新。在第一步中，我们将 ℳ t − 1 和 𝒪 t 之间的余弦相似度计算为分配成本，并应用匈牙利算法 [17] 来将对象与记忆对齐：

其中 𝒪 ^ t 表示对齐的对象嵌入。在第二步中，这些嵌入向量将以基于动量的方式更新记忆。同时，我们将文本相关性融入其中，以自适应地防止不可见目标的帧干扰长期记忆。形式上，记忆更新如下：

其中 α 是动量系数，而 𝒄 ∈ ℝ N s 是 𝒪 ^ t ∈ ℝ N s × d 及其句子嵌入 𝒇 cls t ∈ ℝ d 之间的余弦相似度。

交模态时间增强器。此模块将帧级句子嵌入作为帧代理，以执行帧间交互和视频级目标增强。具体来说，此模块包含 L t 个块。在每个块中，给定对齐的目标嵌入 { 𝒪 ^ t } t = 1 T 和句子嵌入 { 𝒇 cls t } t = 1 T ，我们沿时间维度采用自注意力机制来实现帧间交互。接下来，我们使用交叉注意力模块提取视频级目标信息，该模块将句子嵌入作为查询，将目标嵌入作为键和值，从而得出视频级目标表示 { 𝒪 v t } t = 1 T 。这些包含有效时间信息的表示用于增强帧级目标嵌入，如下所示：

4.2 基于定位的可变形掩码解码器

为了充分利用GroundingDINO的预训练能力进行目标分割，我们定制了一个新颖的基于定位的可变形掩码解码器。该解码器整合了来自GroundingDINO的预训练表示和定位预测，以迭代地细化掩码嵌入，从而实现整个视频中准确一致的目标分割。

为简便起见，我们使用 𝒐 ~ 来表示 𝒪 ~ t 中的任意目标。在掩码解码器之前，我们将 𝒐 ~ 输入边界框以预测其边界框 𝒃 ∈ ℝ 4 ，其中 𝒃 = { b x , b y , b w , b h } 编码归一化的边界框中心坐标、框高和框宽。同时，我们在跨模态图像特征 𝑭 img 上采用特征金字塔网络（FPN），生成高分辨率特征图 𝑭 seg ∈ ℝ H 4 × W 4 × d ，其中 H 和 W 分别表示原始视频帧的高度和宽度。

然后，我们将这些特征和边界框预测输入到基于定位的可变形掩码解码器中，用于对象细化和掩码生成。此掩码解码器由 L m 个块组成，每个块包含两个组件：可变形交叉注意力 [39] 和普通交叉注意力。可变形交叉注意力通过将 𝒐 ~ 作为查询， 𝑭 seg 作为记忆，以及边界框中心 { b x , b y } 作为参考点来整合预训练的定位知识。这种机制有效地聚合了预测位置周围的空间信息，用于对象细化。普通交叉注意力用于整合文本条件，通过将 𝒐 ~ 作为查询， 𝑭 text 作为键和值。这两个组件协同工作，以确保对象分割与文本提示和视觉定位紧密结合。最后，对于每个对象查询，我们获得一个细化的掩码嵌入 𝒐 m ∈ ℝ d ，然后将其与高分辨率特征图 𝑭 seg 进行点积运算，以生成实例掩码 𝒎 。

4.3 置信度感知查询剪枝

基础视觉定位模型通常利用大量查询嵌入来存储广泛的对象信息，例如，GroundingDINO在跨模态解码器中使用 N q = 900 个查询。迭代处理如此大量的查询会显著限制效率，尤其是在视频处理中。然而，直接减少这些查询可能会影响经过良好预训练的对象知识。为了解决这个难题，我们提出了一种置信度感知查询剪枝策略，以迭代地拒绝每一解码器层中的低置信度查询，仅为后续计算导出重要的紧凑查询集，如图 4 所示。

具体来说，跨模态解码器由6层堆叠而成，每一层由一个自注意力、一个与图像特征的交叉注意力和一个与文本特征的交叉注意力组成。令 𝑸 l ∈ ℝ N l × d 表示第 l 个解码器层的输出查询嵌入，其中 N 0 = N q 。我们重用解码器层中的注意力权重来计算每个查询的置信度分数，方法如下：

其中 s j 是第 j 个查询的置信度， 𝑨 s ∈ ℝ N l × N l 表示自注意力权重， 𝑨 c ∈ ℝ L × N l 表示与 L 个文本符元对应的转置交叉注意力权重。前一项表示第 j 个查询从其他查询接收到的平均注意力。从其他查询接收高注意力的查询通常表示它是不可替代的。后一项最大值项衡量的是第 j 个查询（即对象）在文本中被提及的概率。这两项的组合表示查询的重要性以及与文本描述的相关性。基于此分数，我们在每一层过滤掉 p % 的低置信度对象查询，最终得到一组紧凑的 N s 个对象嵌入，其中 N s ≪ N q 。此策略显著降低了计算成本，同时不会影响性能，使我们的 ReferDINO 能够满足视频处理的效率需求。

4.4 训练和推理

ReferDINO 最终为视频-文本对生成 N s 个对象预测序列 𝒑 = { 𝒑 i } i = 1 N s ，每个序列由 𝒑 i = { 𝒄 i t , 𝒃 i t , 𝒎 i t } t = 1 T 表示，它表示第 t 帧上第 i 个对象查询的二元分类概率、边界框和掩码。请注意，只有一个对象序列正确地对应于文本描述。

训练。假设地面实况对象序列为 𝒚 = { 𝒄 t , 𝒃 t , 𝒎 t } t = 1 T 。在训练过程中，我们选择匹配成本最低的序列作为正样本，并将其余序列分配为负样本。匹配成本定义如下：

匹配成本是在单个帧上计算的，并按帧数进行归一化。这里， ℒ cls 是监督二元分类预测的焦点损失。 ℒ box 对L1损失和GIoU损失进行了累加。 ℒ mask 是DICE损失、二元掩码焦点损失和投影损失 [31] 的组合。 λ cls 、 λ box 和 λ mask 是各个损失的标量权重。通过最小化正序列的总损失 ℒ total 以及负序列的仅分类损失 ℒ cls 来对模型进行端到端优化。

推理。在推理过程中，我们选择平均分类分数最高的最佳序列，其索引表示如下：

最终，输出掩码序列形成为 { 𝒎 σ t } t = 1 T 。

5 实验

5.1 实验设置

数据集。我们在五个公共基准数据集上评估了ReferDINO：Ref-YouTube-VOS [30] 、Ref-DAVIS17 [15] 、A2D-Sentences、JHMDB-Sentences [6] 和MeViS [5] 。 Ref-YouTube-VOS是一个大型数据集，涵盖3978个视频和1.5万个文本描述。 Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences分别通过在原始DAVIS17 [26] 、A2D [13] 和JHMDB数据集上添加文本描述标注而创建。 Ref-DAVIS17包含90个视频和1.5千个文本描述。 A2D-Sentences包含3.7千个视频和6.6千个文本描述。 JHMDB-Sentences 提供 928 个视频，每个视频都带有描述。 MeViS 是一个最近建立的基准，它在跨模态运动理解方面提出了新的挑战，包括 2000 个视频和 28000 个文本描述。

Video-Swin-T / Swin-T
Method	Venue	Ref-YouTube-VOS			Ref-DAVIS17			A2D-Sentences			JHMDB-Sentences
Method	Venue	𝒥 & ℱ	𝒥	ℱ	𝒥 & ℱ	𝒥	ℱ	mAP	oIoU	mIoU	mAP	oIoU	mIoU
ReferFormer [35]	CVPR’22	59.4	58.0	60.9	59.6	56.5	62.7	52.8	77.6	69.6	42.2	71.9	71.0
HTML [7]	ICCV’23	61.2	59.5	63.0	-	-	-	53.4	77.6	69.2	42.7	-	-
SgMg [24]	ICCV’23	62.0	60.4	63.5	61.9	59.0	64.8	56.1	78.0	70.4	44.4	72.8	71.7
SOC [22]	NIPS’23	62.4	61.1	63.7	63.5	60.2	66.7	54.8	78.3	70.6	42.7	72.7	71.6
LoSh [37]	CVPR’24	63.7	62.0	65.4	62.9	60.1	65.7	57.6	79.3	71.6	-	-	-
DsHmp [8]	CVPR’24	63.6	61.8	65.4	64.0	60.8	67.2	57.2	79.0	71.3	44.9	73.1	72.1
Grounded-SAM2 [1]	arXiv’24	54.4	51.8	57.0	60.9	57.4	62.6	47.5	59.0	62.5	38.9	70.8	70.5
ReferDINO (ours)	-	66.4	64.4	68.4	66.8	63.1	70.5	58.9	80.2	72.3	45.6	74.2	73.1
Video-Swin-B / Swin-B
ReferFormer [35]	CVPR’22	62.9	61.3	64.6	61.1	58.1	64.1	55.0	78.6	70.3	43.7	73.0	71.8
HTML [7]	ICCV’23	63.4	61.5	65.2	62.1	59.2	65.1	56.7	79.5	71.2	44.2	-	-
SgMg [24]	ICCV’23	65.7	63.9	67.4	63.3	60.6	66.0	58.5	79.9	72.0	45.0	73.7	72.5
SOC [22]	NIPS’23	66.0	64.1	67.9	64.2	61.0	67.4	57.3	80.7	72.5	44.6	73.6	72.3
LoSh [37]	CVPR’24	67.2	65.4	69.0	64.3	61.8	66.8	59.9	81.2	73.1	-	-	-
DsHmp [8]	CVPR’24	67.1	65.0	69.1	64.9	61.7	68.1	59.8	81.1	72.9	45.8	73.9	73.0
Grounded-SAM2 [1] †	arXiv’24	64.8	62.5	67.0	66.2	62.6	69.7	54.7	67.8	68.5	42.5	72.1	72.1
ReferDINO (ours)	-	69.3	67.0	71.5	68.9	65.1	72.9	61.1	82.1	73.6	46.6	74.2	73.2

表 1 ：关于 Ref-YouTube-VOS、Ref-DAVIS17、A2D-Sentences 和 JHMDB-Sentences 的比较。 †结果来自 [12] 。

指标。沿袭以往的工作，我们在 MeViS、Ref-YouTube-VOS 和 Ref-DAVIS17 上使用区域相似度 𝒥 （平均 IoU）、轮廓精度 ℱ （平均边界相似度）及其平均值 𝒥 & ℱ 。对于 A2D-Sentences 和 JHMDB-Sentences，我们采用 mAP、整体 IoU (oIoU) 和平均 IoU (mIoU) 指标。所有评估均使用官方代码或在线平台进行。

协议。我们遵循先前工作中建立的实验协议。具体来说，在 Ref-YouTube-VOS 的训练集上训练的模型直接在 Ref-YouTube-VOS 和 Ref-DAVIS17 的验证集上进行评估。同样，在 A2D-Sentences 上训练的模型直接在 A2D-Sentences 和 JHMDB-Sentences 上进行评估。该模型首先在参考图像分割数据集 RefCOCO/+/g 上进行预训练 [14, 23] ，然后在 RVOS 数据集上进行训练，MeViS 除外，MeViS 中的模型是直接训练的，遵循 [5, 8] 。

实现细节。我们的模型建立在预训练的 GroundingDINO 之上，它使用 Swin Transformer 作为图像主干和 BERT 作为文本主干。官方资源发布了两个GroundingDINO检查点：Swin-T和Swin-B，我们的实验都涵盖了这两个检查点。我们冻结了GroundingDINO的主干网络，并使用LoRA技术 [10] 微调跨模态Transformer，其中秩设置为 32 。我们设置了 α = 0.1 、 L t = 3 和 L m = 3 。在查询剪枝中，我们将丢弃率设置为 50 % 。对于涉及多个目标对象的MeViS数据集，我们遵循 [5, 8] 中的做法，选择分类分数高于阈值 σ = 0.2 的多个目标轨迹。对于其他数据集，我们根据公式 6 选择最佳目标轨迹。

5.2 主要结果

与SOTA方法的比较。如表 1 和 2 所示，我们的ReferDINO在所有五个RVOS数据集上都显著且一致地优于SOTA方法。具体来说，使用Swin-T主干网络，我们的ReferDINO在具有挑战性的MeViS数据集上达到了48.0% 𝒥 & ℱ ，比现有的SOTA提高了1.6%。在具有竞争力的Ref-YouTube-VOS数据集上，我们的ReferDINO达到了66.4% 𝒥 & ℱ ，将SOTA性能提高了2.8%。当应用更大的Swin-B主干网络时，ReferDINO在Ref-YouTube-VOS数据集上进一步将 𝒥 & ℱ 提高到69.3%，超过SOTA超过2.2%。在其他数据集上也观察到一致的性能改进，这证明了我们ReferDINO模型的优越性。

与GroundingDINO+SAM2的比较。为了证明我们的模块设计在GroundingDINO上的有效性，我们将其与最近的基线Grounded-SAM2 [1] 进行了比较，该基线使用GroundingDINO识别单帧中的对象，然后将边界框输出馈送到SAM2 [27] 以分割整个视频。我们使用官方代码并采用SAM2的 sam2_hiera_large 版本。如表 1 和 2 所示，Grounded-SAM2的性能很大程度上取决于GroundingDINO的检测质量。例如，将GroundingDINO中的主干网络从Swin-B切换到Swin-T会导致Ref-YouTube-VOS上的性能下降 𝒥 & ℱ 10.4%。此外，这种简单的模型集成无法有效解决RVOS任务。在各种数据集和主干网络上，我们的ReferDINO始终以显著优势优于Grounded-SAM2。这证明了我们的方法在将GroundingDINO应用于RVOS任务中的有效性。

Video-Swin-T / Swin-T
Method	Venue	𝒥 & ℱ	𝒥	ℱ
MTTR [2]	CVPR’22	30.0	28.8	31.2
ReferFormer [35]	CVPR’22	31.0