专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

迈向视觉定位：综述

FightingCV · 公众号 · · 2025-02-16 08:42

正文

摘要

视觉定位也称为指称表达理解和短语定位。它涉及基于给定的文本描述，在一个图像中定位特定区域的自然数目。此任务的目标是模拟社交对话中普遍存在的指称关系，使机器具备类似人类的多模态理解能力。因此，它在各个领域都有广泛的应用。然而，自2021年以来，视觉定位取得了显著进展，涌现出基于预训练的定位、多模态大语言模型的定位、广义视觉定位和千兆像素定位等新概念，带来了许多新的挑战。在本综述中，我们首先考察了视觉定位的发展历史，并概述了必要的背景知识，包括基本概念和评估指标。我们系统地跟踪和总结了视觉定位的进展，并对各种设置进行了细致的整理，从而对这些设置进行了精确的定义，以规范未来的研究并确保公平的比较。此外，我们还深入探讨了几个高级主题，并重点介绍了视觉定位的众多应用。在数据集部分，我们编制了当前相关数据集的完整列表，进行了公平的比较分析，并提供了最终的性能预测，以激励新标准基准的发展。最后，我们概述了视觉定位面临的挑战，并为未来的研究提出了有价值的方向，这可以为后续研究人员提供灵感。通过提取共同的技术细节，本综述涵盖了过去十年中每个子主题的代表性工作。据我们所知，本文代表了目前视觉定位领域最全面的概述。本综述旨在适合初学者和经验丰富的研究人员，作为理解关键概念和跟踪最新研究进展的宝贵资源。我们持续追踪相关工作，网址为 https://github.com/linhuixiao/Awesome-Visual-Grounding。

索引词：

视觉定位、指称表达理解、短语定位、综述

1 引言

在人工智能 (AI) 领域 [1, 2, 3, 4] ，结合视觉感知和自然语言理解的多模态学习 [5, 6] 已成为在机器中实现类人认知的关键方法。其核心在于整合视觉和语言线索，旨在弥合图像场景和语言描述之间的语义鸿沟。视觉定位 (VG) [7, 8, 9] 代表了这样一个基本的研究方向，它包含了 AI 模型建立语言表达和相应视觉元素之间内在联系的能力。

图1：视觉定位的示意图。

如图 1 所示，根据传统定义 [10, 11, 12] ，视觉定位，也称为指称表达理解 (REC) 和短语定位 (PG)，涉及基于给定的文本描述定位图像内的特定区域，这种描述被称为“ 指称表达 ” [13, 14, 15, 16, 17, 18, 19, 7] 。此任务的目标是模拟社交对话中普遍存在的指称关系，使机器具备类人的多模态理解能力。因此，它在视觉语言导航 [20] 、人机对话 [21, 22] 、视觉问答 [23, 24] 和其他相关领域 [25] 中具有广泛的应用。

图2：过去十年视觉定位的研究工作和性能趋势。 (a)中的数据来自Google Scholar对术语“指称表达理解”的精确匹配查找。 (b)中的GMLLM是7B版本。

深度学习的持续进步，包括视觉定位，是由三个基本要素驱动的：数据、算法和计算能力 [26] 。从数据角度来看，定位任务涉及三种基本类型的数据：图像、指称表达和指称边界框。然而，尽管这三种类型的数据中图像更容易获得，但获得这种配对的三元组数据并非易事；在获取表达文本和相应的边界框时会面临挑战。首先，视觉定位严重依赖于高质量和明确的文本指称表达数据。 1975年，Paul Grice提出了一种用于自然语言对话交互的理性原则，称为格莱斯准则 [27] 。该标准反映了这样一个要求：在描述复杂真实场景中的物体时，它应该信息丰富、简洁且明确 [7, 9] 。指称表达的明确性尤其重要，因为在现实场景中存在属于同一类的多个物体 [9, 7, 28] 。如果表达含糊不清，模型就无法有效地学习有价值的信息，反而会导致混淆。因此，如图 7 所示，在2014年之前，大量的研究 [13, 14, 15, 16, 18, 29] 主要集中在指称表达生成（REG）上，而定位则受到的关注较少。其次，获取配对的边界框也很费力。在早期阶段，由于可用配对边界框的稀缺性，大量研究（例如，DT-RNN (2014) [30] ，DMSM (2015) [31] ，Neg bag (2016) [8] ）主要集中在弱监督设置上。 2014年，Kazemzadeh 等人 [19] 介绍了第一个大规模现实世界表达理解数据集ReferIt Game，它逐渐将完全监督的视觉定位转向更现实的场景。然而，由于ReferIt Game中的图像类别有限且指称文本过于简单，它无法满足明确性的要求。因此，在2016年，Mao 等人提出了 [7] ，Nagaraja 等人重新组织了 [8] 基于MS COCO [32] 图像数据集的RefCOCOg数据集。随后，同年，Yu 等人 [9] 提出了RefCOCO/+ [9] 数据集。这三个数据集为后续的视觉定位研究奠定了坚实的基础，并在接下来的十年里成为标准基准。如图图 2 -(a)所示，此后出现了大量关于视觉接地的研究。随着时间的推移，到 2021 年，Kamath 等人。 [33] 合并了多个区域数据集，同时将接地视为调制检测任务，从而显着改善细粒度表示的学习。随后，随着预训练范式的进步，近年来出现了GRIT [34] 等更大的细粒度数据集，将视觉基础不断推向前所未有的高度。

从算法和计算能力的角度来看，视觉接地的研究在主流深度学习算法和计算能力增强的影响下不断发展。如图图 7 所示，根据深度学习算法的发展，我们可以将视觉基础的研究大致分为三个阶段：初步阶段（2014年之前）、早期（2014-2020年）和高峰阶段（2021 年至今）。 2014年之前，视觉接地尚未系统建立；它作为协助 REG 的验证任务。在此期间，主要方法是使用语言分析工具 [30] 以弱监督的方式选择提案( Sec. 4.1 )。从 2014 年到 2020 年，语言编码使用小型长短期记忆 (LSTM) 网络 [35] ，而图像编码则使用卷积神经网络 (CNN) [36] 。通过两阶段 [11,37,38] 或一阶段 [12,39,40] 方法实现接地结果。在现有的调查中，乔等 . [25] 对这一时期的工作进行了方法论总结。然而，从 2021 年开始，随着 Transformer [41] 的引入，LSTM 和 CNN 方法逐渐失宠。同时，在预训练模型进步的推动下，下游传输任务的范式转向 “预训练然后微调” 。因此，两种单峰预训练模型( 例如 . 、BERT [42] 、DETR [43] 、 Swin Transformer [44] 、DINO [45] 等 . )和视觉语言预训练 (VLP) 模型( 例如 . 、ALBEF [46]0>、CLIP [47]1>、BEiT -3 [48]2>，OFA [49]3>，等4>. 5>)开始用于接地。这段时期还见证了各种设置的出现，包括完全监督、弱监督、零样本学习等。此外，在计算能力快速发展的推动下，模型大小和训练数据量都显著增加。这导致了深度学习中规模律 [50] 的体现，这也影响了视觉定位的研究。从2023年开始，大型语言模型（LLM） [51] 及其多模态对应模型（MLLM） [52] 展现出显著的有效性，导致了基于定位的多模态大型语言模型（GMLLM） [53] 的激增。仅仅一年多时间，许多具有代表性的工作（例如，Shikra [22] ，LION [54] ，等等）已经涌现。

尽管视觉定位在十年间取得了显著进展，但也导致了诸多挑战的积累。 (i) 首先，由于获取三元组数据复杂以及各种预训练模型的可用性，出现了各种各样的实验设置（例如，全监督 [10] ，弱监督 [55] ，半监督 [56, 57] ，无监督 [58, 59] ，零样本 [60, 61] ，以及其他 [62, 63] ）。这些设置可能令人困惑，通常以界限不清和定义模糊为特征，可能导致不公平的比较。例如，在全监督设置中，将基于多个数据集预训练并在单个数据集上微调的模型进行直接比较（例如， [64, 65] ）；使用大规模VLP模型的工作与使用单模态预训练模型的工作直接比较（例如， [66] ）；零样本设置被误解为弱监督设置（例如， [67] ）；无监督和弱监督设置的定义模糊（例如， [68] ）。然而，迄今为止，还没有任何先前的工作系统地解决或总结这些问题。 (ii) 其次，数据集有限，并且在未来的研究方向方面缺乏清晰度。特别是，RefCOCO/+/g [7, 8, 9] 数据集已经提出近十年，并继续作为核心评估基准。然而，由于其达到极限，其性能提升越来越有限。此外，随着LLM的出现，现有数据集不再满足基本任务的要求。例如，如图 3 所示，虽然当前数据集侧重于定位一个特定对象，但根据定位的概念，一个全面的数据集应包含三个条件： (a) 定位一个目标， (b) 定位多个目标，以及 (c) 不定位任何目标。 (iii) 第三，缺乏能够总结现有工作并为未来研究提供指导的系统性综述。如图 2 所示，由于现有文献过多，许多最新作品未能充分解决和比较现有论文中关于类似思想或设置的内容。 Qiao 等人 [25] 对视觉定位进行了技术总结；然而，他们的综述主要集中在2020年之前的时期。在过去的五年里，多模态领域取得了显著进展，并且涌现了大量关于语义理解的研究，这导致了与以往截然不同的转变。因此，迫切需要一篇综述来整合最近的发展，并确定未来研究的新方向。

综述流程：如图 4 所示，在本综述中，我们在第 1 节中简要概述了视觉语义理解的发展历程。随后，第 2 节涵盖了必要的背景信息，包括定义、评估标准和相关研究领域。在第 3 节中，我们从七个角度系统地回顾了当前的研究：完全监督、弱监督、半监督、无监督、零样本、多任务和广义语义理解。将重点讨论主流的完全监督设置。此外，还将比较不同设置下的基准结果。在第 4 节和第 5 节中，我们将讨论一些高级主题和应用。在第 6 节中，我们将介绍经典数据集和新近整理的数据集。然后，我们在第 7 节中指出当前的挑战并概述未来的方向。最后，第 8 节提供了结论。

贡献： (i) 自2020年Qiao等人 et al . [25] 的综述以来，我们是过去五年中第一篇系统地追踪和总结过去十年视觉语义理解发展的综述。通过提取共同的技术细节，这篇综述涵盖了每个子主题中最具代表性的工作。 (ii) 我们精心组织了视觉语义理解中的各种设置，并为这些设置建立了精确的定义，以规范未来的研究，确保公平公正的比较。 (iii) 我们整理了近年来收集的数据集，并在五个经典数据集上提供了最终的性能预测，以激发新的标准基准的发展。 (iv) 我们总结了当前的研究挑战，并为未来的研究提供了有价值的方向，这些方向可以启发后续的研究人员。 (v) 据我们所知，这篇综述目前是视觉定位领域最全面的综述。我们希望这篇文章不仅能为寻求入门知识的初学者提供宝贵的资源，也能为具有扎实基础的研究人员提供帮助，使他们能够了解并掌握最新的进展。

最后，这个领域发展迅速，这使得我们很难跟上最新的发展。我们鼓励研究人员与我们联系并分享他们的新发现，以确保我们能够及时了解最新信息。这些新的成果将被纳入修订版并进行讨论，并在我们的项目代码库中进行追踪。

2 背景

图3：面向未来的广义定位定义。

概述：在本节中，我们将提供视觉定位的全面定义，并对相应的评估指标进行深入讨论。此外，我们将介绍几个密切相关的研究领域。

for tree= forked edges, grow’=0, draw, rounded corners, node options=align=center,, text width=2.7cm, s sep=6pt, calign=edge midpoint, , [ 视觉

定位

综述 , fill=gray!45, parent [§ 2 背景, for tree= data [§ 2.1 概念定义 , data_wide [视觉定位 [9] ; 广义视觉定位 [69] ; 短语定位 [70] , data_work] ] [§ 2.2 评估指标, data_wide] [§ 2.3 定位框的表示, data_wide] [§ 2.4 相关研究领域, data_wide] ] [§ 3 方法综述, for tree=fill=red!45,model [§ 3.1 全监督, model [§ 3.1.1 技术路线图, model [A. 基于传统卷积神经网络的方法, model_more_left [ReSC [12] ; 等等 . , model_work_small] ] [B. 基于Transformer的方法, model_more_left [TransVG [10] ; 等等 . , model_work_small] ] [C. 基于视觉语言预训练模型的迁移方法, model_more_left [CLIP-VG [28] ; 等等 . , model_work_small] ] [D. 面向定位的预训练, model_more_left [GLIP；OFA；等等 . , model_work_small] ] [E. 定位多模态大语言模型, model_more_left [Ferret [53] ; 等等 . , model_work_small] ] ] [§ 3.1.2 框架架构, model [ (a) 2+1结构 [10] ; (b) 2+2结构 [33] ; (c) 双编码器结构 [71] ; (d) 单塔结构 [72] ; (e) 多模态大语言模型 [34] , model_large_left] ] [§ 3.1.3 基准测试结果, model [A. 四个细分设置, model_more_left] [B. 最终性能预测, model_more_left] ] ] [§ 3.2 弱监督, model [基于提议的方法, model [ a. 语句重构策略；

b. 对比学习；

c. 关系感知实例细化；

d. 伪标签；

e. 从两阶段到单阶段, model_more_left [KAC [73] ; DTWREG [74] ; ReIR [75] ; 等等 . , model_work_small ] ] ] [基于视觉语言预训练模型的方法, model [ a. 视觉语言预训练模型辅助弱监督视觉定位；

b. 基于视觉语言预训练模型的弱监督视觉定位迁移, model_more_left [ALBEF [46] ; g++ [76] ; RefCLIP [77] , model_work_small ] ] ] ] [§ 3.3 半监督, model] [§ 3.4 无监督, model [Pseudo-Q [59] ; 等等 . , model_work_small] ] [§ 3.5 零样本, model [四个子设置, model [ a. 基于新颖且未见过的物体；

b. 开放词汇视觉定位；

c. 无需微调，基于候选区域；

d. 无需微调，无需候选区域，model_more_left [ZSGNet [60] ; MMKG [78] ; KOSMOS-2 [34] ; ReCLIP [77] ; 等等 . , model_work_small ] ] ] ] [§ 3.6 多任务，model [REC with REG，model [NMI [7] ; SLR [79] ; CyCo [80] ; 等等 . , model_work_small_2] ] [REC with RES，model [MAC [81] ; RefTR [82] ; VG-LAW [83] , model_work_small_2] ] [其他任务，model [GVQA [84] ; RefCount [85] ; 等等 . , model_work_small_2] ] ] [§ 3.7 广义视觉定位，model ] ] [§ 4 高级

主题，for tree=inference [§ 4.1 自然语言处理语言结构解析，inference_more [SpaCy [86] ; CoreNLP [87] ; 等等 . , inference_work] ] [§ 4.2 空间关系和图网络，inference_more [DGA [88] ; MMKG [78] ; 等等 . , inference_work] ] [§ 4.3 模块化定位，inference_more [CMN [89] ; MAttNet [11] ; 等等 . , inference_work] ] ] [§ 5 应用，for tree=application [§ 5.1 基于定位的目标检测；§ 5.2 指代计数；§ 5.3 遥感视觉定位；§ 5.4 医学视觉定位；§ 5.5 3D视觉定位；§ 5.6 视频目标定位；§ 5.7 机器人和多模态Agent应用；等等 . , application_more] ] [§ 6 数据集和基准，for tree=finetuning [§ 6.1 五个经典数据集，finetuning_wide [RefCOCO/+ [9] ; RefCOCOg-u [8] ; Flickr30k [70] ; ReferIt Game [19] , finetuning_work] ] [§ 6.2 其他现有数据集，finetuning_wide [Visual7w [84] ; Clevr-ref+ [90] ; Crops-ref [91] ; Refer360 [92] ; 等等 . , finetuning_work] ] [§ 6.3 新近整理的数据集，finetuning_wide [GigaGround [93] ; gRefCOCO [94] ; Ref-ZOM [95] ; D ³ [63] ; GRIT ¹ [34] ; GRIT ² [53] ; HC-RefLoCo [96] ; GVC [97] ; 等等 . , finetuning_work] ] ] [§ 7 挑战与展望，for tree=pretraining [§ 7.1 挑战，pretraining_wide] [§ 7.2 未来方向，pretraining_wide] ] ]

图4：论文结构概述，详细介绍了第 2 到 7 章。

2.1 概念定义

为方便区分，我们提供了三个与定位相关的概念定义。

∙ 经典视觉定位。基于过去十年的文献，我们提供了一个广泛接受的、与数据集相关的狭义定义。具体来说，视觉定位 (VG) 或指称表达理解 (REC) 涉及基于给定的文本描述定位图像中的特定区域。当描述性文本仅由几个简短的词组成时，它被称为短语定位 (PG)。当前文献 [10] 通常将 PG 与 ReferIt Game [19] 和 Flickr30k Entities [70] 数据集关联，而当与 RefCOCO/+/g [9, 8] 数据集相关时，则称为 REC。

∙ 短语定位。根据早期文献 [70, 98, 99] ，短语定位 (PL) 定义为识别和定位图像中文本短语中提到的所有实体。 PL 最初于 2015 年在 Flickr30k Entities [70] 数据集中作为一项应用任务引入。与 REC 不同，PL 需要使用 NLP 解析器 ( Sec. 4.1 ) 解析和提取文本短语中的名词短语，并通过检测器生成候选区域，然后对这些图像区域进行评分、排序，并将它们与相应的名词实体配对 [70] 。此过程不利于端到端训练，并且难以对物体的独特定位进行建模。因此，后续研究 [10] 逐渐偏离了这种任务设置，转而专注于仅将主题限定在短语中（即，短语定位）。 PL 建立的区域到短语的对应关系对基于语言图像的预训练（例如，MDETR [33] ，GLIP [100] ）产生了直接的积极影响，这些模型出现在 2021 年。考虑到 PL 研究数量相对有限 [70, 101] ，本综述没有特别区分 PL 和 VG。

∙ 广义视觉定位。传统的 VG 基于一个强假设，即图像中只有一个物体由句子描述，这在现实场景中并不适用。因此，之前的模型在处理指代多个物体或无物体的表达时会失败。为克服这些局限性，一些研究 [69, 94, 63, 95] 在 2023 年提出了类似的概念。遵循 He 等人 [69] 的说法，我们将此类任务命名为广义视觉定位 (GVG) 或广义指称表达理解 (GREC) ，这涉及到在一个图像中对文本输入描述的 (a) 一个，(b) 多个，甚至 (c) 零个物体进行定位（如图 3 所示）。在 Xie 等人的工作 [63] 中，这个概念也称为描述对象检测 (DOD) 。值得注意的是，GREC 任务更适用于现实场景，并具有显著的社会应用价值。例如，在摄像机视频流中执行简单的查询，例如 “没有佩戴安全帽的个人” ，可以在工程建设和交通安全领域得到广泛应用。然而，由于它包含三种情况，传统的 REC 和开放词汇检测 (OVD) [102] 方法无法充分解决这个问题（即，OVD 只能检测 “个人” 和 “头盔” ，而 REC 无法检测多目标和无目标的情况）。相反，GREC 需要模型对每个实例有全面的理解。我们将在第 2.2 节、第 3.7 节和第 6.3 节分别讨论 GREC 任务的评估指标、研究现状和相应的数据集。

图 5：视觉定位的主流设置。各个设置的具体定义在第 3 节中给出。

图6：基于图像的边界框表示。

2.2 评估指标

我们将学习到的基于图像的模型表示为 ℳ g 。对于任何给定的图像 ℐ ∈ ℝ 3 × H × W 和文本 𝒯 ∈ ℝ L t 对，可以通过基于图像模型的推理获得一组预测的边界框 𝑩 ^ = { ℬ ^ i } i = 0 k ：

其中 H 和 W 表示图像的高度和宽度， L t 表示文本符元的长度， ℬ ^ i = ( x ^ i , y ^ i , w ^ i , h ^ i ) 表示每个预测框的坐标， k = 0 , 1 , 2 , … 是目标对象的个数。特别地，当 k = 1 时，它属于经典的基于图像；当 k = 0 时， 𝑩 ^ 为空集。

∙ 经典视觉定位。在单个样本级别，视觉定位中常用的评估标准是模型预测的定位框 ℬ ^ 与真实边界框 ℬ = ( x , y , w , h ) 之间的交并比 (IoU，即，Jaccard重叠) [103] 。在数据集级别，性能指标通常通过计算所有测试样本中IoU值大于0.5（即，[email protected]( % ))的预测结果的比例来确定。

∙ 广义视觉定位。在GVG情况下，评估变得具有挑战性。如果我们采用混合区域的IoU作为多个目标情况的度量标准，由于大框覆盖小框，可能会导致评估不准确。目前，该研究领域还没有权威的评估方案。 He 等人 [69] 建议使用“ Precision@(F1=1,IoU ≥ 0.5) ”和“ N-acc ”分别作为多目标和无目标定位的标准。特别地，“ Precision@(F1=1, IoU ≥ 0.5) ”计算F1分数等于1.0且IoU阈值设置为0.5的样本百分比。这种方案相对合理，因为定位本质上可以被认为是对目标框的二元分类，其中TP（真阳性）、FN（假阴性）、FP（假阳性）和FN（假阴性）是可能的结果。样本的F1分数计算为 F1= 2 ⁢ T ⁢ P 2 ⁢ T ⁢ P + F ⁢ N + F ⁢ P 。 F1=1.0 的样本被认为预测成功。 “ Precision@(F1=1, IoU ≥ 0.5) ”表示基于此标准成功预测样本的比例（详细解释请参见 [69] ）。此外，“ N-acc ”（无目标精度）评估模型在无目标定位场景中的熟练程度。在这种情况下，没有任何边界框的预测被认为是TP；否则，它们被认为是FN。因此，“ N-acc ”定义为 N-acc.= T ⁢ P T ⁢ P + F ⁢ N 。我们鼓励后续研究人员探索更合理的评估标准。

2.3 定位框的表示

数据集存储、数据预处理和模型结果输出中定位框的表示方式存在显著差异。如图 6 所示，通常采用多种表示方法，包括 ( x 1 , y 1 , w , h ) 、 ( x c , y c , w , h ) 和 ( x 1 , y 1 , x 2 , y 2 ) 格式。表示输出框的主要方法通常是通过归一化的 ( x 1 , y 1 , x 2 , y 2 ) 格式，即 ℬ n ⁢ o ⁢ r ⁢ m = ( x 1 / W , y 1 / H , x 2 / W , y 2 / H ) 。

此外，定位坐标的输出是一种高度重视的技术，包含各种位置范式。早期的基于锚点的算法（例如，基于Fast R-CNN的作品 [39] ）利用预定义的滑动窗口和候选区域进行分类，选择与输出定位坐标相似度最高的建议。相反，当前的端到端方法（例如，TransVG [10] ，等等）使用四个数值直接回归边界框坐标。 Pix2seq [104] 提出将检测视为一个序列生成任务，通过将空间位置表示为离散的区间并使用相同数量的符元进行表示，从而实现自回归输出生成。基于此概念，一些研究（例如，OFA [49] ，Unified-IO [105] ，UniTAB [64] ，GIT [106] ，VisionLLM [107] ，等等）引入了类似的坐标词汇表来统一 grounding 和生成任务。此外，当前基于 MLLM 的方法（例如，Ferret [53] ，Shikra [22] ，等等）考虑将坐标数字视为文本词汇表。

2.4 相关研究领域

视觉 grounding 领域包含几个相互关联的研究领域，我们将对此进行简要概述。

∙ 指称表达生成 (REG)。 REG [108, 29] 是最密切相关的任务，其影响深深根植于视觉 grounding 的发展，如第 1 节所强调的那样。最初，视觉 grounding 作为 REG 的辅助任务。然而，近年来，人们转向利用 REG 生成伪标签并实施循环一致性训练，以促进视觉 grounding 研究的进步，这将在第 3.6.1 节中讨论。

∙ 指称表达分割 (RES)。 RES [109] ，也称为指称图像分割 (RIS)，通过需要更复杂和不规则的掩码区域而不是规则的矩形框来区别于 REC。在某些情况下，REC 和 RES 会被一起讨论，而两者的并发实现被称为多任务视觉 grounding，这将在第 3.6.2 节中讨论。然而，由于需要更细粒度的区域，因此对 RES [110] 的广泛研究已经独立于 REC 进行。

3 方法：综述

图 7：从技术路线图的角度（第 3.1.1 节）对完全监督视觉 grounding 中具有代表性的研究进展进行的按时间顺序的概述。缩略作品的相应参考文献可在正文中找到。

概述：为了更好地促进对当前接地研究现状的理解，在本节中，我们根据实验设置对现有方法进行了系统的分类和回顾，尤其强调了过去五年内发展的方法。图 5 说明了常用设置的简明定义。这些设置与模型训练期间使用的数据类型或学习方法有关。具体来说：

∙ 完全监督设置。此设置涉及使用三元组训练或微调接地模型，三元组由数据对（即，图像，查询文本）以及相应的接地区域组成。目前，这是研究最广泛的设置之一。

∙ 弱监督设置。在此设置中，接地模型仅使用图像-查询文本对进行训练，而无需显式的接地区域标注。

∙ 半监督设置。这指的是利用部分标记的完全监督三元组数据和未标记的图像数据进行训练。它通常借助额外的检测器。

∙ 无监督设置。仅从未标记的图像中学习接地，同时利用检测器等辅助模型。

∙ 零样本设置。此设置中存在两个典型的分支。 (i) 第一个分支涉及在基础类别中学习接地能力，并在新类别中测试其性能 [60] 。 (ii) 第二个分支是指使用来自其他任务（特别是预训练任务）的预训练模型来评估接地能力，无需特定微调 [61] 。

∙ 多任务设置。此配置包含各种形式，其中接地能力与其他下游任务（如 REG 或 RES 等）同时学习。

∙ 广义视觉接地。如 Sec. 2.1 和 Fig. 3 中介绍，GVG 是一个新近提出的概念。

在接下来的章节中，我们将详细介绍每种设置。

3.1 完全监督设置

完全监督视觉接地 (FSVG) 目前是研究最广泛的领域，它经历了十年的发展，并见证了众多分支的出现。在本节中，我们将深入探讨技术路线图、框架架构的分类以及四个细分设置下的基准结果。

图 8：两阶段和单阶段管道的比较。

3.1.1 技术路线图

如 Fig. 7 所示，视觉接地的发展与深度学习算法的进步密切相关，并展现出重大的范式转变阶段。我们将主要方法分为五条技术路线，即基于传统 CNN 的方法、基于 Transformer 的方法、基于视觉语言预训练 (VLP) 的方法和基于多模态大型语言模型的方法。

A. 基于传统卷积神经网络的方法 (2014年至今)

直观地说，视觉定位的初始步骤涉及将图像和参照表达式文本编码到共享向量空间中，然后根据语言线索识别相应的视觉区域。在早期阶段，卷积神经网络 [36, 111] 在图像处理方面占据主导地位。通过将输入图像嵌入到固定长度的向量中，卷积神经网络可以生成适用于各种视觉任务的综合图像表示，例如目标检测 [112, 113, 114] 和图像分类 [115] 。同样，循环神经网络 (RNN)，例如门控循环单元 (GRU) [116] 和长短期记忆网络 (LSTM) [35] 常用于编码句子，并在序列建模任务中表现出令人称赞的性能。随着各种模态编码技术的不断发展，视觉定位也展现出两大明显的技术发展趋势。

(a) 从两阶段到单阶段。在视觉分支中，如图图 8 所示，受目标检测器进步的影响，本时期内的工作通常可以分为两类。 (i) 两阶段方法。由于早期检测器技术（例如非最大抑制 (NMS) [117] 、RoI池化 [39, 112] 等 . ）的局限性，两阶段方法首先生成一组区域建议，然后采用区域文本匹配来识别置信度最高的建议。如图所示表 I ，大量两阶段工作出现在这一时期。同时，短语定位也表现出类似的范式 ( 例如 . ，MCB’16 [23] ，Sim Net’18 [118] ，CITE’18 [119] ，DDPN’18 [120] ，PIRC’19 [121] ，CMCC’20 [122] ，等 . )。然而，这些方法面临着一些重大挑战。首先，在第一阶段生成密集候选区域需要大量的额外计算，从而影响计算效率。其次，最终的定位性能直接受到第一阶段获得的区域候选区域质量的影响。最后，将语言引导信息整合到提取的候选区域中证明是具有挑战性的。因此，随着单阶段检测器（例如，YOLO [123] ，SSD [113] ）和端到端检测器（例如，YOLOv3 (DarkNet) [124] ，Faster-RCNN [112] ）的引入，后续研究逐渐转向单阶段方法。 (ii) 单阶段方法消除了对候选区域提取的需要，并在目标检测器的中间层整合语言信息，同时输出具有预定义密集锚点中最高分数的框。本时期具有代表性的作品总结于表 I .

表I：传统时期单阶段和两阶段方法的总结。结果来自基础模型。

Methods	Venue	Visual	Language	RefCOCO
Methods	Venue	branch	branch	val	testA	testB
a. Two-stage methods.
MMI [7]	CVPR’16	VGG16 [115]	LSTM [125]	–	64.90	54.51
Neg Bag [8]	ECCV’16	VGG16 [115]	LSTM [125]	–	58.60	56.40
Visdif [9]	ECCV’16	VGG16 [115]	LSTM [125]	–	67.64	55.16
Attr [126]	ICCV’17	VGG16 [115]	LSTM [125]	–	72.08	57.29
CG [127]	CVPR’17	VGG16 [115]	LSTM [125]	–	67.94	55.18
CMN [89]	CVPR’17	VGG16 [115]	LSTM [125]	–	71.03	65.77
SLR [79]	CVPR’17	VGG16 [115]	LSTM [125]	69.48	73.71	64.96
PLAN [128]	CVPR’18	VGG16 [115]	LSTM [125]	–	75.31	65.22
VC [129]	CVPR’18	VGG16 [115]	BiLSTM [130]	–	73.33	67.44
LGRANs [131]	CVPR’19	VGG16 [115]	BiLSTM [130]	–	76.60	66.40
MAttNet [11]	CVPR’18	Faster RCNN	BiLSTM [130]	76.40	80.43	69.28
DGA [88]	ICCV’19	Faster RCNN	BiLSTM [130]	–	78.42	65.53
NMTree [132]	ICCV’19	Faster RCNN	BiLSTM [130]	71.65	74.81	67.34
RVGTree [38]	TPAMI’19	Faster RCNN	BiLSTM [130]	71.59	76.05	68.03
CM-Att-E [37]	CVPR’19	Faster RCNN	BiLSTM [130]	78.35	83.14	71.32
a. One-stage methods.
SSG [133]	ArXiv’18	YOLOv3 [124]	BiLSTM [130]	–	76.51	67.50
FAOA [39]	ICCV’19	YOLOv3 [124]	BERT [42]	72.05	74.81	67.59
RCCF [134]	CVPR’20	DLA-34 [135]	BiLSTM [130]	–	81.06	71.85
ReSC [12]	ECCV’20	DarkNet [124]	BERT [42]	76.59	78.22	73.25
MCN [81]	CVPR’20	DarkNet [124]	BiGRU [136]	80.08	82.29	74.98
RealGIN [40]	TNNLS’21	DarkNet [124]	BiGRU [136]	77.25	78.70	72.10
LBYL ^† [137]	CVPR’21	DarkNet [124]	BERT [42]	79.67	82.91	74.15

表II：新时代具有代表性的作品在完全监督设置下对RefCOCO/+/g数据集的性能比较。

Methods	Venue	Visual / Language	Intermediate	Data pair	RefCOCO [9]			RefCOCO+ [9]			RefCOCOg [8]
Methods	Venue	Backbone	pretrain data	size	val	testA	testB	val	testA	testB	val	test
a. Single-dataset fine-tuning setting w. unimodal pre-trained close-set detector and language model: (traditional setting)
TransVG [10]	ICCV’21	RN101+DETR / BERT-B	–	–	81.02	82.72	78.35	64.82	70.70	56.94	68.67	67.73
SeqTR [138]	ECCV’22	DN53 / BiGRU	–	–	81.23	85.00	76.08	68.82	75.37	58.78	71.35	71.58
RefTR [82]	NeurIPS’21	RN101+DETR / BERT-B	–	–	82.23	85.59	76.57	71.58	75.96	62.16	69.41	69.40
Word2Pix [139]	TNNLS’22	RN101+DETR / BERT-B	–	–	81.20	84.39	78.12	69.74	76.11	61.24	70.81	71.34
QRNet [140]	CVPR’22	Swin-S [44] / BERT-B	–	–	84.01	85.85	82.34	72.94	76.17	63.81	71.89	73.03
LADS [141]	AAAI’23	RN50+DETR / BERT-B	–	–	82.85	86.67	78.57	71.16	77.64	59.82	71.56	71.66
VG-LAW [83]	CVPR’23	ViT-Det [142] / BERT-B	–	–	86.06	88.56	82.87	75.74	80.32	66.69	75.31	75.95
TransVG++ [71]	TPAMI’23	ViT-Det [142] / BERT-B	–	–	86.28	88.37	80.97	75.39	80.45	66.28	76.18	76.30
b. Single-dataset fine-tuning setting w. self-supervised vision-language pre-trained model:
CLIP-VG [28]	TMM’23	CLIP-B / CLIP-B	–	–	84.29	87.76	78.43	69.55	77.33	57.62	73.18	72.54
JMRI [143]	TIM’23	CLIP-B / CLIP-B	–	–	82.97	87.30	74.62	71.17	79.82	57.01	71.96	72.04
D-MDETR [66]	TPAMI’23	CLIP-B / CLIP-B	–	–	85.97	88.82	80.12	74.83	81.70	63.44	74.14	74.49
HiVG-B [144]	ACMMM’24	CLIP-B / CLIP-B	–	–	87.32	89.86	83.27	78.06	83.81	68.11	78.29	78.79
HiVG-L [144]	ACMMM’24	CLIP-L / CLIP-L	–	–	88.14	91.09	83.71	80.10	86.77	70.53	80.78	80.25
OneRef-B [72]	NeurIPS’24	BEiT3-B / BEiT3-B	–	–	88.75	90.95	85.34	80.43	86.46	74.26	83.68	83.52
OneRef-L [72]	NeurIPS’24	BEiT3-L / BEiT3-L	–	–	92.87	94.01	90.19	87.98	91.57	83.73	88.11	89.29
c. Dataset-mixed intermediate pre-training setting:
MDETR ^† [33]	ICCV’21	RN101/RoBERT-B	GoldG,RefC	6.5M	86.75	89.58	81.41	79.52	84.09	70.62	81.64	80.89
YORO ^† [65]	ECCV’22	ViLT [145] / BERT-B	GoldG,RefC	6.5M	82.90	85.60	77.40	73.50	78.60	64.90	73.40	74.30
DQ-DETR ^† [146]	AAAI’23	RN101 / BERT-B	GoldG,RefC	6.5M	88.63	91.04	83.51	81.66	86.15	73.21	82.76	83.44
Grounding-DINO-B ^†	ECCV’24	Swin-T / BERT-B	O365,GoldG,RefC	7.2M	89.19	91.86	85.99	81.09	87.40	74.71	84.15	84.94
Grounding-DINO-L ^†	ECCV’24	Swin-L / BERT-B	G-DINO-L ^∗	21.4M	90.56	93.19	88.24	82.75	88.95	75.92	86.13	87.02
HiVG-B* [144]	ACMMM’24	CLIP-B / CLIP-B	RefC,ReferIt,Flickr	0.8M	90.56	92.55	87.23	83.08	87.83	76.68	84.71	84.69
HiVG-L* [144]	ACMMM’24	CLIP-L / CLIP-L	RefC,ReferIt,Flickr	0.8M	91.37	93.64	88.03	83.63	88.16	77.37	86.73	86.86
OneRef-B* [72]	NeurIPS’24	BEiT3-B / BEiT3-B	RefC,ReferIt	0.5M	91.89	94.31	88.58	86.38	90.38	79.47	86.82	87.32
OneRef-L* [72]	NeurIPS’24	BEiT3-L / BEiT3-L	RefC,ReferIt	0.5M	93.21	95.43	90.11	88.35	92.11	82.70	87.81	88.83
UNITER-B ^‡ [147]	ECCV’20	UNITER-B / UNITER-B	ALBEF ^∗ [46]	∼ 17M	81.24	86.48	73.94	75.31	81.30	65.58	74.31	74.51
VILLA ^‡ [148]	NeurIPS’20	VILLA-B / VILLA-B	ALBEF ^∗ [46]	∼ 17M	81.65	87.40	74.48	76.05	81.65	65.70	75.90	75.93
UniTAB ^‡ [64]	ECCV’22	RN101/RoBERT-B	VG,COCO, etc .	> 20M	88.59	91.06	83.75	80.97	85.36	71.55	84.58	84.70
FIBER ^‡ [149]	NeurIPS’22	Swin-B / RoBERT-B	CC,SBU,VG,GoldG, etc .	∼ 5M	90.68	92.59	87.26	85.74	90.13	79.38	87.11	87.32
OFA-B ^‡ [49]	ICML’22	OFA-B / OFA-B	unavailable	–	88.48	90.67	83.30	81.39	87.15	74.29	82.29	82.31
OFA-L ^‡ [49]	ICML’22	OFA-L / OFA-L	unavailable	–	90.05	92.93	85.26	85.80	89.87	79.22	85.89	86.55
mPlug ^‡ [150]	EMNLP’22	CLIP-L / BERT-B	ALBEF ^∗ [46]	∼ 17M	92.40	94.51	88.42	86.02	90.17	78.17	85.88	86.42
mPlug-2 ^‡ [150]	ICML’23	Swin-T / BERT-B	ALBEF ^∗ [46]	∼ 17M	90.33	92.80	86.05	–	–	–	84.70	85.14
CyCo ^‡ [80]	AAAI’24	ViT [151] / BERT-B	VG,SBU,CC3M, etc .	> 120M	89.47	91.87	85.33	80.40	87.07	69.87	81.31	81.04
Predicted ultimate performance (based on OneRef-B model):			RefC,ReferIt	0.5M	98.69	99.08	98.57	97.93	98.50	97.34	98.14	98.48
Predicted ultimate performance (based on OneRef-L model):			RefC,ReferIt	0.5M	99.01	99.10	98.95	98.51	98.92	98.76	98.94	98.98
d. Fine-tuning setting w. grounding multimodal large language model (GMLLM):
Shikra-7B [22]	arXiv’23	CLIP-L / Vicuna-7B [152]	L-Inst,RefC,VG,RD, etc .	∼ 4M	87.01	90.61	80.24	81.60	87.36	72.12	82.27	82.19
Shikra-13B [22]	arXiv’23	CLIP-L / Vicuna-13B [152]	L-Inst,RefC,VG,RD, etc .	∼ 4M	87.83	91.11	81.81	82.89	87.79	74.41	82.64	83.16
Ferret-7B [53]	ICLR’24	CLIP-L / Vicuna-7B [152]	GRIT [53]	> 8M	87.49	91.35	82.45	80.78	87.38	73.14	83.93	84.76
Ferret-13B [53]	ICLR’24	CLIP-L / LLaVA-13B	GRIT [53]	> 8M	89.48	92.41	84.36	82.81	88.14	75.17	85.83	86.34
Next-Chat [153]	ICML’24	CLIP-L / Vicuna-7B [152]	L-Inst,RefC,GRIT,…	>> 20M	88.69	91.65	85.33	79.97	85.12	74.45	84.44	84.66
MiniGPT-v2 [154]	arXiv’23	CLIP-L / Vicuna-7B [152]	L-Inst,RefC,GRIT,…	>> 20M	88.69	91.65	85.33	79.97	85.12	74.45	84.44	84.66
LLaVA-G [97]	ECCV’24	CLIP-L,Swin-T / Vicuna-7B	L-Inst,RefC,VG,Flickr,…	unknown	89.16	–	–	86.18	–	–	84.82	–
G-GPT [155]	ACL’24	CLIP-L / Vicuna-7B [152]	L-Inst,RefC,VG,Flickr,…	unknown	88.02	91.55	82.47	81.61	87.18	73.18	81.67	81.99
Groma [156]	ECCV’24	DINOv2-L / Vicuna-7B [152]	L-Inst,RefC,VG,Flickr,…	unknown	89.53	92.09	86.26	83.90	88.91	78.05	86.37	86.52
QWen-VL [157]	arXiv’23	EVA-G / QWen [158]	LAION,GRIT,RefC,…	> 1.5B	89.36	92.26	85.34	83.12	88.25	77.21	85.58	85.48
VisCoT [159]	CoRR’24	CLIP-L / Vicuna-7B [152]	L-Inst,RD,VisCoT, etc .	∼ 2.4M	87.46	92.05	81.18	91.77	94.25	87.46	88.38	88.34
Lenna [160]	arXiv’23	G-DINO-L / LLaVA-7B [161]	L-Inst,G-DINO-L ^∗ ,…	> 21M	90.28	93.22	86.97	88.08	90.07	83.99	90.30	90.29
u-LLaVA [162]	arXiv’23	CLIP-L / Vicuna-7B [152]	L-Inst,RefC,COCO,…	∼ 4M	91.20	94.29	87.22	85.48	91.76	78.11	86.54	87.25
CogVLM-17B [163]	arXiv’24	EVA-2 [164] /Vicuna-7B [152]	LION-2B,COYO,…	∼ 3B	92.76	94.75	88.99	88.68	92.91	83.39	89.75	90.79
Sphinx-2k [163]	arXiv’24	EVA-G [164] /LLaMA2 [165]	LION-2B,VG,RefC,…	∼ 3B	91.10	92.88	87.07	85.51	90.62	80.45	88.07	88.65
VistaLLM [166]	CVPR’24	EVA-G [167] /Vicuna-7B [152]	L-Inst,CoinLt, etc .	∼ 4M	88.10	91.50	83.00	82.90	89.80	74.80	83.60	84.40
LION-4B [54]	CVPR’24	EVA-G [167] /FlanT5-3B	VG,COCO, etc .	3.6M	89.73	92.29	84.82	83.60	88.72	77.34	85.69	85.63
LION-12B [54]	CVPR’24	EVA-G [167] /FlanT5-11B	VG,COCO, etc .	3.6M	89.80	93.02	85.57	83.95	89.22	78.06	85.52	85.74
Ferret-v2-7B [168]	COLM’24	CLIP-L,DINOv2/Vicuna-7B	GRIT,VQA,OCR, etc .	unknown	92.79	94.68	88.69	87.35	92.65	79.30	89.42	89.27
Ferret-v2-13B [168]	COLM’24	CLIP-L,DINOv2/Vicuna-13B	GRIT,VQA,OCR, etc .	unknown	92.64	94.95	88.86	87.39	92.05	81.36	89.43	89.99
Annotation: As described in Sec. 3.1.3 , we divide these works into four subdivision settings for a relatively fair comparison. In the type of (c), ‘ † ’ indicates the intermediate pre-training based on detection supervision, ‘ ∗ ’ indicates the intermediate pre-training based on grounding supervision, ‘ ‡ ’ indicates the intermediate pre-training based on multi-task supervision with box-level datasets. ‘…’ indicates that too many datasets are used, and not all of them can be listed due to space limits. ‘RefC’ represents the mixup of RefCOCO/+/g training data. ‘G-DINO-L ^∗ ’ denotes ‘O365,OI,GoldG,Cap4M,COCO,RefC’. Specifically, ‘GoldG’ (proposed in MDETR [33] ) is a mixed region-level fine-grained dataset created by combining three datasets (Flickr30k [70] , MS COCO [32] , and Visual Genome [169] ), along with annotated text data for detection, REC and QGA tasks. It has a size of approximately 6.2 M. ‘O365’ refers to the Object365 [170] dataset, ‘SBU’ stands for SBU caption [171] , ‘VG’ here represents Visual Genome [169] dataset, and ‘OI’ stands for OpenImage [172] dataset. Besides, ‘ALBEF’ stands for the pre-training dataset used in ALBEF [46] , which mainly consists of MS COCO [32] , VG [169] , CC3M [173] , CC12M [174] , SBU [171] , WebVid-2M [175] , WikiCorpus [42] , etc* . Furthermore, ‘L-Inst’ stands for LLaVA-instruction tuning [161] dataset, ‘RD’ stands for Shikra-RD [22] dataset, ‘LAION’ stands for LAION [176] dataset, ‘COYO’ stands for COYO-700M [177] dataset. Since many works do not directly disclose the amount of data used for intermediate pre-training, the data pair size in the table may be unavailable or statistically inaccurate. We strongly appeal the subsequent researchers to follow more rigorous experimental settings for fair comparison and actively disclose their own statistics on the amount of data used for intermediate pre-training.

(b) 从GRU/LSTM到注意力机制。在语言分支以及跨模态融合分支中，也显示出清晰的技术转变。 (i) CNN-GRU/LSTM时期。作为最初的方法，大多数两阶段方法（例如，MMI [7] ，Visdif [9] ，VC [129] ，SCRC [178] ，CG [127] ，Attribute [126] ，SLR [79] ，等等）由于其简单性和有效性而采用CNN-LSTM框架。然而，这些方法受限于单一的向量表示，并且忽略了语言和图像中存在的复杂上下文结构。在处理复杂的查询文本时，它们会按顺序编码文本，而忽略了文本表达中的语义依赖关系。 (ii) CNN-注意力机制时期。注意力机制最初于2014年应用于神经机器翻译（NMT） [179, 180] ，随后在2016年引入了自注意力机制 [181] 。随后，在Transformer框架中提出了多头自注意力机制（MHSA） [41] 。利用注意力机制的有效性已通过实验证实适用于视觉和多模态任务（例如，Up-down [182] ，DANs [183] ，等等）。因此，研究人员越来越多地将其应用于视觉定位中的语言模块和跨模态融合模块（例如，MCB [23] ，CMN [89] ，MattNet [11] ，DGA [88] ，PLAN [128] ，A-ATT [184] ，KPRN [185] ，PLAN [128] ，CM-Att-E [37] ，等等）。通过使用这种技术，可以在图像和语言信息之间建立符元级的连接，从而促进在编码过程中整合特定和选择的视觉和文本特征，从而产生语义丰富的跨模态表示。

B. 基于Transformer的传统方法（从2021年开始）

如上所述，注意力机制在2010年代成为一种越来越有效的技术 [181] 。 Transformer的引入 [41] 在自然语言处理领域引发了革命性的突破。 2018年，BERT [42] 提出了一种名为“下一句预测”（NSP）的自监督预训练范式，使模型能够学习通用的语言表示。它的成功逐渐影响了计算机视觉（CV）领域，导致了ViT [151] 和DETR [43] 的提出，它们允许Transformer作为视觉主干用于定位任务。与之前的工作相比，这一时期研究的核心标志是将Transformer用作定位框架中的视觉编码或跨模态融合模块。我们在表 II 中总结了这个新时代的作品。

(a) ViT作为视觉主干。 2021年，TransVG [10] 成为第一个基于Transformer的定位框架，它集成了来自DETR的编码器。由于Transformer架构不再需要之前的基于检测器的技术 [112] ，例如RPN、Proposal、NMS和ROI池化，因此在这种框架中实现定位变得具有挑战性。 TransVG提出利用可学习的区域符元将视觉定位重新表述为一个回归问题，从而实现与传统检测任务的解耦。

(b) 语言引导的视觉定位。视觉主干网络通常在检测和分割任务上进行预训练。因此，在定位学习期间，通常需要额外的融合模块来整合视觉和语言特征。这种架构设计直观地揭示了一个潜在的缺陷：在编码过程中，局部视觉信息可能被独立处理，导致可能的信息丢失并导致与参考文本无关的视觉特征。为了解决这个问题，研究人员提出了许多语言引导的视觉定位技术，例如QRNet [140] 、语言条件适配器 [71] 、语言提示 [71] 、多层自适应跨模态桥 (MACB) [144] 、语言自适应动态子网 (LADS) [141] 、自适应权重生成 (VG-LAW) [83] 、跨模态注意力 [146] 、多模态条件适应 (MMCA) [186] 等等。

C. 基于VLP的迁移方法 (2021年起)

在传统范式下，视觉定位的两种模态由基于检测和语言任务的主干网络分别编码 [10] 。这种主干网络学习到的特征在模态之间自然不一致，导致视觉和语言表示融合的显著差距。 2021年，Radford 等人 . [47] 提出利用自监督对比语言图像预训练 (CLIP) 在大规模网络图像-文本数据对上进行训练。与之前的完全监督方法相比，CLIP在零样本设置下实现了与图像分类任务相当的性能，从而直接导致了随后的多模态预训练浪潮 [187] 。通过利用VLP模型进行定位任务，跨模态特征空间内存在自然的一致性。因此，CLIP-VG [28] 采用了一个简单的架构，包括两个编码器和一个融合编码器，并利用多层视觉特征来促进定位感知。虽然VLP模型在实现定位迁移方面表现出一定的优势，但定位任务需要区域级图像感知和文本逻辑的语义理解。因此，它仍然存在一些局限性，后续的研究工作旨在解决这些局限性。

同时，VLP模型从海量数据中获得了全面的跨模态表示，如果直接使用全部参数在小规模下游任务上进行微调 [144] ，则容易出现灾难性遗忘。因此，参数高效微调 (PEFT) [188] 技术，例如 LoRA [189] 、Prompt [190, 191] 、Adapter [192] 等 . ，在促进基于VLP的接地迁移方面也起着至关重要的作用。 HiVG [144] 通过特定层的权重和多层自适应跨模态桥梁，建立了多层视觉和语言特征之间的联系。它引入了一种分层低秩自适应 (HiLoRA) 范式，以分层的方式调制原始CLIP模型的视觉特征，以实现最先进的接地性能。此外，还提出了其他一些方法，例如 CRIS [193] 、RISCLIP [194] 等 . ，用于基于CLIP实现RES任务迁移。

D. 面向接地的预训练方法 (2020年起)

(a) 区域级预训练。视觉接地任务本质上与检测任务交织在一起。但是，传统的检测任务并不包含语言模态的编码和理解。因此，2021年，MDETR [33] 提出将检测任务重新定义为基于DETR的编码器-解码器架构的调制检测器，从而实现了检测和接地的集成。受短语定位中构建的区域-短语对应关系的启发，Li 等人 . [100] 提出了一种基于语言图像接地的预训练方法 (GLIP)，以获得区域级的细粒度跨模态表示。这些构成了后续多模态大规模预训练检测模型的基础（例如 . ，GLIPv2 [195] ）、OVD模型（例如 . ，OVR-CNN [102] ）等。在此基础上，MDETR 还引入了一个实验分支，该分支偏离了由 TransVG [10] 代表的单数据集微调设置，即数据集混合中间预训练设置，如表 II 所示。

(b) 多任务预训练。遵循区域级多模态预训练的思想，作为一种细粒度的跨模态理解任务，视觉接地也可以在多任务范式中与其他任务（例如 . ，图像字幕、VQA、检索等 . ）一起进行预训练，以获得更通用的表示。代表性工作包括UniTAB [64] 、OFA [49] 、UNINEXT [196] 、HIPE [197] 、ViLBERT [198] 、VL-BERT [199] 、ONE-PEACE [200] 、mPlug [150] 等。有关此主题的更多详细信息，请参考综述论文 [201, 202] 。

E. 接地多模态LLM（2023年起）

(a) 研究动机。根据视觉定位的定义，传统的基于检测器和基于视觉语言处理（VLP）的方法面临着若干挑战。首先，由于大多数现有定位工作依赖于固定的框回归头，因此它们只遵循视觉定位的狭义定义，难以实现泛化的定位（如第 2.1 节所示）。其次，作为一个开放世界的设置，视觉基础应该支持任意语言查询；然而传统方法受到固定训练和测试集( 例如 . 、RefCOCO/+/g 数据集）的限制，限制了对象类别和文本内容。第三，指代和定位通常用于对话场景；然而，传统方法仅在一轮内执行定位。换句话说，当前模型缺乏在进行定位的同时参与自然语言对话的能力。

随着OpenAI发布GPT-3和ChatGPT [52, 51, 203] ，大型语言模型（LLM）通过大规模预训练展示了强大的AI能力。随后，随着GPT-4的发布 [204] ，通用多模态AI成为可能。 2023年，Meta AI开源了一个名为LLaMA-13B的LLM [205] ，它在大多数基准测试中都超过了商用GPT-3-175B模型，并且与Chinchilla-70B [50] 和PaLM-540B [206] 等最先进的LLM具有竞争力。在此期间，大型语言模型展现出显著的进步。 Alpaca [207] 、Vicuna [152] 和GPT-4-LLM [208] 利用各种机器生成的高质量指令示例来增强LLM的对齐能力，并取得了优于专有LLM的令人印象深刻的性能。随后，Liu等人 et al . 通过利用LLaMA和CLIP采用视觉指令调优方法，引入了LLaVA [161] 作为强大的多模态大型语言模型（MLLMs）基线，从而赋予大型语言模型多模态能力。因此，从2023年开始，大量工作致力于视觉定位多模态大型语言模型（GMLLMs）。

图9：使用预训练模型时，视觉定位常用框架架构的分类。

(b) 研究现状。利用大语言模型 (LLM) 解决 grounding 问题的一个区别在于输出边界框的表示方式。 Shikra [22] 开创性地探索了 GMLLM 并进行了实验验证，通过直接使用坐标数字作为文本词汇表，证明了其优越的性能。 KOSMOS-2 [34] 也是较早期的工作，但它主要基于 KOSMOS-1 [209] 来验证 MLLM 在指令调优 [161] 的辅助下进行零样本和少样本 grounding 的能力。在随后的研究中，Ferret [53] 引入了混合区域表示，并通过构建空间感知视觉采样器实现了对自由形状和任意粒度的开放词汇描述 grounding。 Ferret-v2 [168] 集成了多尺度 DINOv2 [210] 特征，通过三阶段训练实现了任意分辨率的 grounding 和指代。同样，Lava-grounding [97] 采用了与 Ferret 相似的模型架构，但在输入（ e.g . ，点击、框和标记）和输出（ e.g . ，文本、框、掩码和标记）方面提供了更大的灵活性。为了协调区域级和图像级视觉和语言 (VL) 任务之间的内部冲突，LION [54] 基于混合适配器结构 [211] 和 BLIP-2 的 Q-former [212] ，提出了一种基于三阶段指令调优策略的细粒度空间感知视觉知识的渐进式集成方法。 Grounding-GPT [155] 基于 ImageBind 和 Q-former 框架，实现了视觉 grounding，也实现了视频 grounding 和音频 grounding。同样，相关的基于 MLLM 的工作（ e.g . ，GLaMM [213] ，LISA [214] ，GSVA [215] ，UniMLLM [216] ，F-LMM [217] ，VistaLLM [166] ， etc . ）也出现在 RES 任务中。总体而言，这些模型采用多阶段训练策略（ e.g . ，三阶段 [54, 156, 168] ），并遵循相对相似且简单的框架，基本上采用了图 9 -(e) 中所示的范式。由于篇幅限制以及类似工作的近期出现，我们在表 II 中介绍了部分其他相关工作（例如 MiniGPT4-v2 [154] ，QWen-VL [157] ，Groma [156] ，Lenna [160] ，VisCoT [159] ，ViGoR [218] ，BuboGPT [219] ，MiniGPT4 [220] ，RegionGPT [221] ，VistaLLM [166] ，VisionLLM [107] ，CogVLM [163] ，Next-Chat [153] ，TextHawk [222] ， etc . ）。

(c) GMLLM 的技术。作为一种 MLLM，许多常用技术都适用于 GMLLM。在 Shikra [22] 中，作者介绍了 Grounding Chain-of-Thought (GCOT) 的概念，它通过结合指代推理能力扩展了传统的 Chain-of-Thought (COT) [223] 。对于不同粒度的任务，例如图像级和区域级任务，LION [54] 使用带有路由器的混合适配器 (MOA) 机制，动态集成从视觉分支和 LLM 适配器中获得的视觉知识。同样，LoRA [189] 在 Next-Chat [153] 和 LISA [214] 等模型中也显示出有效性。

(d) 通用大语言模型 (GMLLM) 的数据集和基准。许多当前的工作都提出了特定于 GMLLM 的数据集，我们在第 6.3.2 节介绍了相关的数据集和基准。

表 III：五种典型结构的示例性工作部分。

Architectures	Representative grounding works
2+1 structure	TransVG [10]	QRNet [140]	CLIP-VG [28]	UNITER [147]
2+1 structure	HiVG [144]	MMCA [186]	ReSC [12]	CRIS [193]
2+2 structure	MDETR [33]	DQ-DETR [146]	D-MDETR [66]	G-DINO [224]
2+2 structure	RefTR [82]	PolyFormer [225]	UniTAB [64]	OFA [49]
Two-encoder	TransVG++ [71]	VG-LAW [83]	UniQRNet [226]	LAVT [227]
One-tower	OneRef [72]	ONE-PEACE [200]	YORO [65]	SimVG [228]
GMLLMs	Ferret [53]	MiniGPT-v2 [154]	Ferret-v2 [168]	Shikra [22]
	G-GPT [155]	LLaVA-G [97]	QWen-VL [157]	Groma [156]
	Kosmos-2 [34]	VisCoT [159]	Lenna [160]	LION [54]
	u-LLaVA [162]	VistaLLM [166]	Next-Chat [153]	LISA [214]

3.1.2 框架架构的分类

在上一小节中，我们回顾了过去十年中完全监督的方法，重点关注技术路线图的进展。值得注意的是，自 2020 年以来，“ 预训练和微调” 的广泛采用范式越来越流行，从而导致视觉 grounding 领域快速发展。我们概述了 grounding 任务中使用的预训练模型所采用的模型架构，这些架构可以分为五种典型类型，如图 9 和表 III 所示。

具体来说， (a) 2+1 结构由 TransVG [10] 表示，它主要采用视觉和语言无关的编码，随后利用融合编码器进行跨模态特征融合。此架构包含一个特殊的区域符元来回归 grounding 结果。 (b) 2+2 结构，以 MDETR [33] 为例，遵循原始 DETR [146] 模型的结构。它整合查询锚点来生成 grounding 框，使其更兼容检测和分割任务。由于模态编码和特征融合的分离，该架构可以无缝适应预训练阶段的各种预训练范式（例如，图像文本匹配 (ITM)、序列到序列生成、掩码语言模型 (MLM) 等等）。因此，它已广泛应用于早期的一般表示学习研究（例如，FIBER [149] 等等）。然而，它的缺点在于由于模块庞大而导致参数过多和训练成本高。 (c) 双编码器结构解决了结构(a)和(b)中存在的参数冗余问题。通过直接丢弃融合模块，这些结构实现了更高的效率。 (d) 单塔结构，例如OneRef [72] ，通过利用模态共享特征空间，消除了复杂的集成设计和冗余参数，从而实现了效率和性能的提升。同样，其他工作，例如YORO [65] 、ScanFormer [229] 、SimVG [228] ，等等。，主要受益于单塔主干网络的预训练表示，即。，ViLT [145] 和BEiT-3 [48] 。最后， (e) GMLLM 结构。当前的GMLLM本质上遵循这种结构的范式，它包括编码视觉信息并将其映射到LLM的特征空间中，从而将接地任务制定为自回归语言任务。

3.1.3 基准测试结果

A. 四个细分实验设置

2020年代以来代表性工作的性能总结在表 II 中。为了确保公平比较，我们将实验结果分为四个典型的设置。具体来说， (a) 使用单峰闭集检测器和语言模型的单数据集微调； (b) 使用自监督VLP模型的单数据集微调； (c) 使用混合数据集的中间预训练；以及 (d) 基于GMLLM的微调。此外，第三种类型的设置可以根据中间预训练范式进一步细分，包括 (i) 基于检测监督的中间预训练， (ii) 基于接地监督的中间预训练，以及 (iii) 使用箱级细粒度数据集的多任务监督的中间预训练。值得注意的是，目前一些工作在实验比较中缺乏严谨性，并且在同行评审期间没有经过彻底的审查，导致环境不利。我们强烈建议未来的研究在进行比较时采用更严格的实验设置分类方法。

B. 三个数据集上的最终性能预测

即使经过十年的发展，RefCOCO/+/g数据集仍然是当前 grounding 研究的基本数据集。然而，如表 II 和图 2 -(b)所示，这三个数据集的性能目前非常接近。基于Ref-L4 [230] 和CLIP-VG [28] 的研究结果，RefCOCO/+/g数据集的验证集和测试集都包含许多错误和具有挑战性的grounding示例。因此，RefCOCO/+/g数据集不太可能达到100 % 的性能评分。因此，我们的目标是预测RefCOCO/+/g数据集的性能边界，以提醒未来的研究人员提出更具挑战性的数据集并改变grounding评估的测试基准。

当前grounding的趋势涉及在中间预训练期间使用越来越多样化的数据集，这使得这些模型更容易受到数据泄漏的影响。基于此，我们采用最先进的模型，通过整合来自RefCOCO/+/g数据集的所有训练集、验证集和测试集的样本，重新训练一个新模型。随后，我们利用这个模型来评估验证集和测试集的性能。通过采用这种循序渐进的课程学习方法 [28] ，可以对这三个数据集的性能上限进行粗略估计。具体来说，我们使用OneRef ¹ 进行了实验。在(c)设置下，结果如表 II 所示。从表 II 可以看出，目前的性能差距大约在 5 % ∼ 10 % 左右。这表明迫切需要提出一个新的grounding数据集。

表IV：弱监督方法概述。

Methods	Venue	V/L	Two/one-	Flickr	RefCOCO+
Methods	Venue	Backbone	stage	test	val
a. Proposal-based Methods.
GroundR [231]	ECCV’16	VGG / LSTM	Two	28.94	–
Xiao et al . [55]	CVPR’17	VGG / LSTM	Two	N/A	N/A
KAC Net [73]	CVPR’18	VGG / LSTM	Two	38.71	–
MATN [232]	CVPR’18	VGG / LSTM	Two	33.10	–
KPRN [185]	ACMMM’19	M-R / LSTM	Two	–	35.96
ARN [233]	ICCV’19	M-R / LSTM	Two	37.95	32.78
Align2Ground [234]	ICCV’19	F-R / LSTM	Two	41.40	–
info-ground [235]	ECCV’20	F-R / BERT	Two	51.67	–
MAF [236]	EMNLP’20	F-R / BERT	Two	44.39	–
CCL [237]	NeurIPS’20	F-R / BiGRU	Two	–	34.29
DTWREG [74]	TPAMI’21	F-R / Glove	Two	–	38.91
NCE-Distill [238]	CVPR’21	F-R / LSTM	Two	50.96	–
ReIR [75]	CVPR’21	F-R / LSTM	Two	59.27	–
EARN [239]	TPAMI’22	F-R / LSTM	Two	38.73	37.54
DRLF [240]	TMM’23	F-R / LSTM	Two	46.46	–
Cycle [241]	TIP’23	F-R / GRU	Two	64.88	37.66
TGKD [242]	ICRA’23	F-R / Glove	Two	–	40.20
PSRN [243]	TCSVT’24	F-R / LSTM	Two	–	40.68
b. VLP-based WSVG Transfer.
ALBEF [46]	NeurIPS’21	ViT / BERT	Two	–	58.46
X-VLM [244]	ICML’22	Swin / BERT	Two	–	67.78
CPL [245]	ICCV’23	VGG / CLIP	Two	46.62	–
g++ [76]	CVPR’23	VGG / CLIP	Two	45.56	–
RefCLIP [77]	CVPR’23	YLv3 / CLIP	One	–	40.39
QueryMatch [246]	ACMMM’24	M-F / CLIP	One	–	44.76
UR [247]	TOMM’24	F-R / CLIP	Two	–	49.37
PPT [67]	MMM’24	F-R/X-VLM	Two	–	68.16
Annotation: ‘M-R’, ‘F-R’, ‘YLv33’, ‘M-F’, and ‘Glove’ represents Mask-RCNN [248] , Faster-RCNN [112] , YOLO-v3 [124] , Mask2former [249] , and Glove vector [250] , respectively.

3.2 弱监督设置

如第 3 节所定义，为了减轻完全监督环境下对劳动密集型边界框标注的依赖，弱监督视觉定位 (WSVG) 旨在仅利用图像文本对进行训练来获取区域-查询对应关系。由于其相对减少的数据依赖性，这种设置在过去十年中受到了广泛关注。如表 IV 所示，与完全监督的演变类似，我们将现有的 WSVG 方法分为两类：传统的基于提议的方法和基于 VLP 的 WSVG 转移。

3.2.1 基于提议的方法

由于 WSVG 在训练期间缺乏用于监督的地面实况边界框标注，一个直观的想法是利用现成的检测器生成图像提议。此流程与传统的两阶段完全监督网络类似，因此启发了从 2016 年 [231] 开始的大多数现有方法将 WSVG 构建为多实例学习 (MIL) [251] 框架内的区域文本排序问题。这些方法的主要挑战在于从图像文本对中提供有效的监督信号。为了解决这个问题，研究人员采用了各种技术，例如句子重建、对比学习 (CL)、关系感知实例细化、伪标签和单阶段方法等。

(a) 句子重建策略。重建策略通常采用外部目标检测器从图像中生成一组区域提议，并使用具有最高排序分数的提议重建整个查询，从而建立匹配和重建损失 [231, 55, 252] 。 GroundR (2016) [231] 通过结合视觉特征注意力机制来重建短语，从而构建对应关系。为了提高监督的有效性，KAC-Net (2018) [73] 采用了类似的公式，但整合了视觉一致性和目标类别的知识，而 Align2Ground (2019) [234] 则采用排序损失来最小化相关图像标题之间的距离并最大化不相关图像标题之间的距离。随后，DTWREG (2021) [74] 提出了一种判别三元组和可扩展的查询解析策略，而 PSRN (2024) [243] 提出了一种具有两级匹配重建过程的渐进语义重建网络。

(b) 对比学习。与句子重建相比，基于 CL 的方法从选定的区域和表达式中构建正样本和负样本对，然后计算 InfoNCE 损失 [253] 。例如，CCL [237] 利用反事实 CL 来在反事实正结果和负结果之间发展充分的对比训练。 NCE-Distill [238] 利用对比范式优化词区域注意力，以学习短语定位，从而最大化图像和查询之间互信息的较低界限。其他工作，例如 info-ground [235] 、Cycle [241] 等等 . ，利用类似的对比模块来获得优越的性能。

(c) 关系感知实例细化。利用语言句子结构和场景图是弱监督建议中进行关联和解析的自然选择，可以根据空间关系细化目标区域。具体来说，MATN [232] 使用变换网络在整个图像中搜索目标短语位置，然后使用预计算的候选框对其进行正则化。此外，一些工作中已经考虑了上下文线索来消除歧义。例如，ARN [233] 和 EARN [239] 通过在实体、位置和上下文级别提取语言和视觉线索来确保多层次的跨模态一致性。 KPRN [185] 通过同时匹配主语和目标实体进一步结合了语言上下文。为了解决语义模糊的限制，ReIR [75] 采用了一种弱监督学习策略，重点关注上下文感知实例细化。

(d) 伪标签。在无监督设置中，由于缺乏标注信息，Pseudo-Q [59] 提出通过利用图像上下文的空间先验信息来构建基于模板的伪标签。受此方法的启发，一些研究（例如 . ，CPL [245] ，Lin 等人 . [254] ，等等 . ）也已经将伪标签纳入WSVG设置中。 CPL [245] 引入了一种置信度感知的伪标签方法，用于直接生成伪查询，以解决句子重建过程中跨模态异构差距。 g++ [76] 使用伪标签和定位图进行自训练。 DRLF [240] 将 Pseudo-Q 生成的伪查询作为双重强化学习框架中的预热模块，明确地使用区域级监督。

(e) 从两阶段到一阶段。上述方法是在两阶段框架内提出的，不可避免地会遇到第 3.1.1 节中提到的各种两阶段局限性。因此，最近的研究工作 [255, 77, 246] 旨在从两阶段推理过渡到一阶段推理。具体来说，RefCLIP (2023) [77] 利用预训练的检测器提取锚点特征，并利用锚点-文本匹配来选择用于边界框解码的目标锚点。然而，基于锚点的框架受到片段锚点无法准确表示目标信息的影响。另一方面，QueryMatch (2024) [246] 将WSVG视为一个查询锚点-文本匹配问题，并依赖于从基于Transformer的检测器中提取的查询特征来表示对象。随后，它采用二分匹配，其中查询特征可以与视觉对象建立一对一的关联。

尽管已经进行了上述尝试，但WSVG在实现准确的跨模态接地能力方面仍然面临挑战。具体来说，首先，这些尝试通常依赖于一组预先计算的候选框，其中包含许多干扰物或背景区域，这使得难以确定正确的匹配。其次，由于外部检测器施加的约束，候选框在学习过程中通常保持不变，导致接地不精确。第三，这些方法通常通过使用基于注意力的特征聚合或编码谓词三元组来隐式地表示名词短语或视觉目标上下文。这种表示难以捕捉图像-句子对之间关系中固有的丰富语义，从而阻碍细粒度的跨模态对齐并引入歧义。

3.2.2 基于VLP的WSVG迁移

(a) VLP辅助的WSVG。与全监督的发展类似，研究人员旨在通过利用VLP模型的跨模态对齐能力来增强WSVG。为了确保公平比较，我们分别在表 II 中评估这些方法。具体来说，一方面，诸如CPL [245] 、g++ [76] 、RefCLIP [77] 、QueryMatch [246] 、UR [247] 、VPT-WSVG [254] 、PPT [67] 、等等 . 等方法利用VLP模型（例如 . ，CLIP [47] ，BLIP [256] ，等等 . ）的跨模态对齐能力来增强计算建议-文本相似性时的置信度排序。

(b) 基于VLP的弱监督视觉定位转移。此外，一些VLP模型（例如 ALBEF [46] 、X-VLM [244] 、等等）试图通过定位任务来验证其细粒度的对齐能力。然而，由于粗粒度的VLP缺乏直接的定位能力，这些方法通常执行输入图像和文本之间的跨模态交互以生成跨模态注意力图。随后，通过将此注意力图叠加到原始图像上，创建一个跨模态激活图（例如 Grad-CAM [257] ）。然后，采用附加检测器以弱监督的方式生成候选框。最后，模型根据激活图计算和排序这些候选框，以识别得分最高的建议。在这些方法中，由于VLP模型在预训练阶段已经从大规模未标记数据对中获得了全面的跨模态表示，因此它们只需要针对定位任务进行最少的微调，就可以达到显著的性能。

3.3 半监督设置

如第 3 节所定义，半监督视觉定位（SSVG）旨在通过利用有限的标记数据和未标记数据来提高模型的性能。与弱监督视觉定位相比，半监督方法相对不常见。鉴于存在未标记数据，考虑采用伪标签生成方法来标注未标记样本是自然而然的（例如 PQG-Distil [258] ）。此外，可以使用自定步长课程学习 [28, 259] 或自训练框架从标记子集中获取更强大的模型，随后细化和过滤未标记样本 [260] 。或者，可以使用知识蒸馏来训练一个更强大的教师模型，使用标记子集，然后根据未标记数据将其知识转移到学生模型（例如 PQG-Distil [258] ）。具体来说，在 [231] 中，作者通过采用注意力机制来重建给定的短语以进行定位，从而解决了语言标注和边界框可用性有限的挑战。在LSEP [56] 中，作者研究了对象没有标记查询的场景，并提出了一种位置和主题嵌入预测器，以生成必要的语言嵌入来标注训练集中缺失的查询目标。此外，SS-Ground [57] 利用现成的预训练定位模型，在多尺度上生成用于区域-短语对齐的伪标注。

3.4 无监督设置

为进一步减少对劳动密集型标注数据的依赖，早期的无监督视觉定位 (USVG) 工作 [58, 68, 261] 尝试利用基于预训练检测器和额外的大规模语料库的非配对图像和查询来解决这个问题。然而，图像-查询和查询-框双重配对的方法都存在挑战。相反，Javed 等人 [262] 利用一组图像-短语对中语义共性的存在来生成监督信号。 Pseudo-Q [59] 提出使用目标和属性检测器生成模板伪标签，有效地消除了双重配对造成的错误。与Pseudo-Q不同，CLIP-VG [28] 引入了三种伪语言标签的来源，并提出了一种自定步长的课程适应算法，以自训练的方式 [263] 平衡分类法受限伪标签的可靠性和多样性。其他工作，如Omini-Q [264] 和VG-annotator [265] ，遵循类似的生成伪标签的概念。

3.5 零样本设置

表 V：零样本设置方法的简要概述。

Methods	Venue	Pre-trained	Two/one-	Fine-
Methods	Venue	model	stage	tuning
a. Grounding Novel Objects and Unseen Noun Phrases.
ZSGNet [60]	ICCV’19	None	Two-stage	Yes
MMKG [78]	AAAI’22	None	Two-stage	Yes
b. Open Vocabulary Visual Grounding.
CLIPREC [266]	TMM’23	CLIP	One-stage	Yes
Wang et al . [62]	Neurcom’23	CLIP	Two-stage	Yes
Mi et al . [267]	Neurcom’24	CLIP	One-stage	Yes
c. Finetuning-free for Pre-trained Model with Detected Proposals.
ReCLIP [61]	ACL’22	CLIP	Two-stage	No
adapting-CLIP [268]	Arxiv’22	CLIP	Two-stage	No
ChatRef [269]	ICLR’23	GPT-4,GroundingDINO	Two-stage	No
CPT [270]	AI Open’24	VinVL [271]	Two-stage	No
VR-VLA [272]	CVPR’24	CLIP	Two-stage	No
GroundVLP [273]	AAAI’24	CLIP,VinVL,ALBEF	Two-stage	No
MCCE-REC [274]	TCSVT’24	CLIP,Vicuna [152]	Two-stage	No
CRG [275]	ECCV’24	LLaVA,GroundingDINO	Two-stage	No
PSAIR [276]	IJCNN’24	CLIP,GroundingDINO	Two-stage