专栏名称: 计算机视觉深度学习和自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

视觉落地研究的综述

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-23 00:07

正文

24年12月来自中科院自动化所、深圳鹏城实验室和中科院大学的论文“Towards Visual Grounding: A Survey”。

视觉落地（visual grounding）又称为参考表达理解和短语落地。它涉及根据给定的文本描述在图像中定位数个特定区域。此任务的目标是模拟社交对话中普遍存在的参考关系，使机器具备类似人类的多模态理解能力。因此，它在各个领域都有广泛的应用。然而，自 2021 年以来，视觉落地取得重大进展，出现了诸如落地的预训练、基础多模态 LLM、广义视觉落地和千兆像素落地等新概念，这些概念带来许多新挑战。首先研究视觉落地的发展历史，并概述必要的背景知识，包括基本概念和评估指标。系统地跟踪和总结进展，并精心组织视觉落地中的各种设置，从而建立这些设置的精确定义，以规范未来的研究并确保公平的比较。此外，深入研究几个高级主题，并重点介绍视觉落地的众多应用。在数据集部分，汇编当前相关数据集的综合列表，进行公平的比较分析，并提供最终的性能预测，以启发新标准基准的开发。最后，概述视觉落地面临的挑战，并提出未来研究的宝贵方向，这些方向可能会为后续研究人员提供启发。通过提取常见的技术细节，本综述涵盖过去十年中每个子主题的代表性工作。

在人工智能 (AI) [1]、[2]、[3]、[4] 领域，将视觉感知和自然语言理解相结合的多模态学习 [5]、[6] 已成为实现机器的类人认知关键方法。其核心是视觉和语言线索的整合，目的是弥合图像场景和语言描述之间的语义鸿沟。视觉落地(VG) [7]、[8]、[9] 代表了这种基本追求，包括 AI 模型在语言表达和相应视觉元素之间建立内在联系的能力。

如图所示，视觉落地（VG），又称参考表达理解 (REC) 和短语落地 (PG) ，按照传统定义 [10]、[11]、[12]，涉及根据给定的文本描述在图像中定位特定区域，这种描述称为“ 参考表达 ”[7]、[13]、[14]、[15]、[16]、[17]、[18]、[19]。此任务的目标是模拟社交对话中普遍存在的参考关系，使机器具有类人的多模态理解能力。因此，它在视觉语言导航（VLN） [20]、人机对话 [21]、[22]、视觉问答 [23]、[24] 和其他相关领域 [25] 中有着广泛的应用。

包括视觉落地在内深度学习的不断进步由三个基本要素驱动：数据、算法和算力 [26]。从数据角度来看，落地任务涉及三种基本类型的数据：图像、参考表达和参考边框。然而，尽管在这三种类型中图像更容易获得，但获取这种成对的三元组数据并不是一件容易的事；获取表达文本和相应的边框时会出现挑战。

首先，视觉落地严重依赖于高质量、无歧义的文本参考表达数据。1975 年，保罗·格莱斯提出自然语言对话交互的理性原则，称为格莱斯格言（Gricean Maxims）[27]。该标准反映这样的要求：在描述复杂现实场景中的目标时，它应该信息丰富、简洁且无歧义 [7]，[9]。由于现实场景中存在属于同一类别的多个目标，参考表达的无歧义性尤为重要 [7]，[9]，[28]。如果表达含糊不清，模型就无法有效学习到有价值的信息，反而会导致混淆。因此，如图所示，2014 年之前，大量研究 [13]、[14]、[15]、[16]、[18]、[29] 主要集中在参考表达生成 (REG) 上，而落地则很少受到关注。从算法和算力的角度看，在主流深度学习算法和算力提升的影响下，视觉落地研究也在不断发展。基于深度学习算法的发展，可以将视觉落地研究大致分为三个阶段：初步阶段（2014年之前）、早期阶段（2014-2020年）和激增阶段（2021年至今）。由于现有文献数量过多，许多最新研究未能充分阐述和比较类似思想或场景的现有论文。在过去五年中，多模态社区取得重大进展，落地研究领域涌现出大量研究，与之前的格局发生明显变化。

其次，获取配对边框也是一项劳动密集型的工作。在早期阶段，由于可用的配对边框稀缺，大量研究（例如 DT-RNN (2014) [30]、DMSM (2015) [31]、Neg bag (2016) [8]）主要集中在弱监督设置上。2014 年，Kazemzadeh [19] 推出第一个大规模真实世界表达理解数据集 ReferIt Game，从而逐渐将全监督的视觉落地转向更现实的场景。但由于 ReferIt Game 中图像类别有限、参考文本过于简单，无法满足无歧义性的要求。因此，2016 年，Mao [7] 提出，Nagaraja [8] 基于 MS COCO [32] 图像数据集重新整理 RefCOCOg 数据集。随后，Yu [9] 于同年提出 RefCOCO/+ [9] 数据集。这三个数据集为后续的视觉落地研究奠定坚实的基础，并成为此后十余年的标准基准。如图-(a) 所示，此后出现大量关于视觉落地的研究，如图-(b) 所示各种方法的性能增长。随着时间的推移，在 2021 年，Kamath [33] 结合多个区域数据集，将落地作为一项经过调制的检测任务，从而显著提升细粒度表示的学习。随后，随着预训练范式的进步，近年来出现更大规模的细粒度数据集（如 GRIT [34]），不断将视觉落地推向前所未有的高度。

2014年之前，视觉落地尚未系统地建立，而是作为辅助REG的验证任务。在此期间，主要方法是使用语言分析工具[30]以弱监督的方式选择提案。2014年至2020年，语言编码使用 LSTM 网络[35]，而图像编码则使用卷积神经网络（CNN）[36]。通过两-阶段 [11]、[37]、[38] 或单-阶段 [12]、[39]、[40] 方法，取得了落地成果。在现有综述中，Qiao [25] 对这一时期的参考表达工作进行方法论总结。然而，他们的调查主要集中在 2020 年之前的时期。

然而，从 2021 年开始，随着 Transformer [41] 的引入，LSTM 和 CNN 方法逐渐失宠。同时，在预训练模型进步的推动下，范式转向下游迁移任务的“预训练然后微调”。因此，单模态预训练模型（例如 BERT [42]、DETR [43]、Swin Transformer [44]、DINO [45] ）和视觉语言预训练（VLP）模型（例如 ALBEF [46]、CLIP [47]、BEiT-3 [48]、OFA [49] 等）开始用于视觉落地研究。这一时期还出现各种各样的设置，包括全监督、弱监督、零样本学习等。此外，在计算能力的快速进步推动下，模型大小和训练数据量都显著扩大。这导致深度学习中规模化定律 [50] 的体现，同时也影响视觉落地研究。自 2023 年起，大语言模型 (LLM) [51] 和多模态模型 (MLLM) [52] 表现出显著的功效，导致落地多模态大型语言模型 (GMLLM) [53] 的激增。在短短一年多的时间里，出现了许多代表性方法（例如 Shikra [22]、LION [54]）。

虽然视觉落地在过去十年中取得重大进展，但也带来了许多挑战。

(i) 首先，由于获取三元数据的复杂性以及各种预训练模型的可用性，出现各种各样的实验设置（例如，全监督 [10]、弱监督 [55]、半监督 [56]、[57]、无监督 [58]、[59]、零样本 [60]、[61] 以及 [62]、[63]）。这些设置可能会造成混淆，通常边界不明确、定义不明确，从而导致潜在的不公平比较。例如，在全监督设置下，直接比较在多个数据集上预训练的模型和使用单个数据集进行微调的模型（例如 [64]、[65]）；有些研究直接将利用大规模 VLP 模型与使用单模态预训练模型的模型进行比较（例如 [66]）；零样本设置被误解为弱监督设置（例如 [67]）；无监督和弱监督设置的定义模糊（例如 [68]）。然而，到目前为止，还没有先前的研究系统地解决或总结这些问题。
（ii）其次，数据集有限，未来研究方向不明确。具体来说，RefCOCO/+/g [7]、[8]、[9] 数据集已经提出近十年，并继续作为核心评估基准。然而，由于达到极限，其性能提升变得越来越有限。此外，随着 LLM 的出现，现有数据集不再满足基本任务的要求。例如，如图所示，虽然当前数据集侧重于落地一个特定目标，但根据落地的概念，一个全面的数据集应该包含三个条件：（a）针对一个目标的落地，（b）针对多个目标的落地，以及（c）针对无目标的落地。
（iii）第三，缺乏系统的综述来总结现有的工作并为未来的研究提供指导。

本综述的结构如图所示：

在数据集存储、数据预处理和模型结果输出中，落地框的表示形式存在很大差异。如图所示，通常采用多种表示形式，包括（x1，y1，w，h）、（xc，yc，w，h）和（x1，y1，x2，y2）格式。表示输出框的主流方法往往是通过归一化的（x1，y1，x2，y2）格式，即B/norm =（x1 / W，y1 / H，x2 / W，y2 / H）。

此外，落地坐标的输出是一项备受推崇的技术，涵盖各种位置范式。早期基于锚点的方法（例如基于Fast R-CNN的作品[39]）利用预定义的滑动窗口和候选区域进行分类，选择相似度最高的提议来输出落地坐标。相反，当前的端到端方法（例如 TransVG [10] 等）直接使用四个数值回归边框坐标。Pix2seq [104] 提出将检测视为序列生成任务，通过在离散 bin 中表示空间位置并使用相等数量的 tokens 进行表示，实现自回归输出生成。基于这一概念，一些研究（例如 OFA [49]、Unified-IO [105]、UniTAB [64]、GIT [106]、VisionLLM [107] ）引入类似的坐标词汇表来统一落地任务和生成任务。此外，当前基于 MLLM 的方法（例如 Ferret [53]、Shikra [22] ）考虑将坐标数视为文本词汇表。

为了更好地理解当前落地研究的现状，根据实验设置系统地对现有方法进行分类和回顾，特别强调过去五年内开发的方法。如图简要定义常用设置。这些设置与模型训练期间使用的数据类型或学习方法有关。具体来说：

• 全监督设置。此设置涉及使用三元组训练或微调落地模型，三元组由数据对（即图像、查询文本）以及相应的落地框组成。它是目前研究最广泛的设置之一。
• 弱监督设置。在此设置中，落地模型仅使用图像查询文本对进行训练，而没有明确的落地框注释。
• 半监督设置。这指的是利用部分标记的全监督三元组数据和未标记的图像数据进行训练。它通常由额外的检测器辅助。
• 无监督设置。仅从未标记的图像中学习基础，同时利用检测器等辅助模型。•零样本设置。此设置中有两个典型分支。（i）第一个分支涉及学习基类中的基础能力并测试其在新类中的表现[60]。（ii）第二个分支是指使用来自其他任务（特别是预训练任务）的预训练模型来评估基础能力，而无需进行特定的微调[61]。
•多任务设置。此配置包含各种形式，其中落地与其他下游任务（如REG或RES等）同时学习。
•广义视觉落地。GVG是新近提出的概念。

全监督方法

2014年之后的基于CNN方法

（a）单步和双步目标检测方法。

如图比较：(i) 两步法。由于早期检测器技术（如非最大抑制 (NMS) [117]、RoI 池化 [39]、[112] 等）的限制，两步方法首先生成一组区域提议，然后采用区域文本匹配来识别置信度最高的提议。（ii）单步法，消除对提议提取的需要，并在目标检测器的中间层中集成语言信息，同时从预定义的密集锚点中输出具有最高分数的框。

下表列出代表性方法：

（b）语言类以及跨模态融合方法。

（i）CNN-GRU/LSTM 时期。大多数两步法（例如 MMI [7]、Visdif [9]、VC [129]、SCRC [178]、CG [127]、Attribute [126]、SLR [79] ）由于其简单性和有效性而采用 CNN-LSTM 框架。然而，这些方法受到单一向量表示的限制，忽略语言和图像中存在的复杂上下文结构。在处理复杂的查询文本时，它们按顺序对其进行编码，同时忽略文本表达中的语义依赖关系。（ii）CNN-Attention 机制时期。注意机制最初于 2014 年在神经机器翻译 (NMT) 中使用 [179]、[180]，随后在 2016 年引入自注意机制 [181]。接着，在 Transformer 框架中提出多头自注意机制 (MHSA) [41]。利用注意机制的有效性已在视觉和多模态任务（例如，Up-down [182]、DAN [183] ）中得到实证验证。因此，研究人员越来越多地将其应用于语言模块和视觉基础中的跨模态融合模块（例如，MCB [23]、CMN [89]、MattNet [11]、DGA [88]、PLAN [128]、A-ATT [184]、KPRN [185]、PLAN [128]、CM-Att-E [37] ）。通过采用这种技术，可以在图像和语言信息之间建立 token 式连接，促进编码过程中特定和选择性的视觉和文本特征的整合，从而产生语义丰富的跨模态表示。

2021年以后的基于 Transformer 方法

与之前的工作相比，这一时期研究的一个核心标志是将 Transformer 用作落地框架中的视觉编码或跨模态融合模块。如表总结这个新时代的这些工作。

（a）ViT 作为视觉主干。2021 年，TransVG [10] 成为基于 Transformer 的先驱落地框架，整合 DETR 的编码器。由于 Transformer 架构不再需要以前基于检测器的技术 [112]，例如 RPN、Proposal、NMS 和 ROI 池化，因此在这样的框架中实现落地变得具有挑战性。TransVG 建议通过使用可学习的 [Region] token 将视觉落地重新表述为回归问题，从而实现与传统检测任务的解耦。

（b）语言引导的视觉落地。视觉主干通常在检测和分割任务上进行过预训练。因此，在落地学习期间，通常需要额外的融合模块来整合视觉和语言特征。这种架构设计直观地揭示一个潜在的缺陷：局部视觉信息在编码过程中可能被独立处理，从而导致信息丢失，并产生与文本无关的视觉特征。为了解决这个问题，研究人员提出许多语言引导的视觉落地技术，如 QRNet [140]、语言条件适配器 [71]、语言提示 [71]、多层自适应跨模态桥 (MACB) [144]、语言自适应动态子网 (LADS) [141]、自适应权重生成 (VG-LAW) [83]、跨模态注意 [146]、多模态条件适应 (MMCA) [186] 等。

自 2021 年起的基于视觉语言预训练（VLP）迁移方法

在传统范式下，基于检测和语言任务的主干分别对视觉落地的两种模态进行编码 [10]。此类主干网络学习到的特征自然不会在模态之间对齐，从而导致视觉和语言表征融合存在显著差距。2021 年，Radford [47] 提出利用 CLIP 对大规模网络图像-文本数据对进行训练。与之前的全监督方法相比，CLIP 在零样本设置下的图像分类任务上实现相当的性能，从而直接引发随后的多模态预训练浪潮 [187]。通过利用 VLP 模型进行落地任务，跨模态特征空间内存在自然对齐。因此，CLIP-VG [28] 采用由两个编码器和一个融合编码器组成的简单架构，并利用多层视觉特征来促进落地感知。虽然 VLP 模型在实现落地迁移方面表现出一定的优势，但落地迁移任务需要区域级图像感知和文本逻辑的语义理解。因此，它仍然存在一些局限性，后续的研究工作旨在解决这些局限性。

同时，VLP 模型从大量数据中获得全面的跨模态表示，如果在小规模下游任务上直接使用全参进行微调，则容易发生灾难性遗忘 [144]。因此，参数高效微调 (PEFT) [188] 技术，如 LoRA [189]、Prompt [190]、[191]、Adapter [192] 等，在促进基于 VLP 的落地迁移方面也发挥着至关重要的作用。 HiVG [144] 通过特定层的权重和多层自适应跨模态桥在多层次视觉和语言特征之间建立联系。它引入分层 LoRA 范式，以分层方式调节原始 CLIP 模型的视觉特征，以实现 SoTA 基础性能。此外，还提出其他几种方法，如 CRIS [193]、RISCLIP [194] 等，以实现基于 CLIP 的 RES 任务迁移。

自 2020 年起面向落地的预训练方法

（a）区域级预训练。视觉落地任务本质上与检测交织在一起。然而，传统的检测任务不包括语言模态的编码和理解。因此，2021 年，MDETR [33] 提出将检测任务重新表述为基于 DETR 编码器-解码器架构的调制检测器，从而实现检测和落地的集成。受短语定位中构建的区域短语对应关系的启发，Li [100] 提出了基于落地的语言图像预训练 (GLIP) ，以获得区域级细粒度跨模态表示。这些为后续的多模态大规模预训练检测模型（如 GLIPv2 [195]）、OVD 模型（如 OVR-CNN [102]）等奠定基础。在此基础上，MDETR 还引入一个不同于 TransVG [10] 代表的单数据集微调设置的实验分支，即数据集-混合的中间预训练设置。

(b) 多任务预训练。遵循区域级多模态预训练的思想，作为一项细粒度的跨模态理解任务，视觉落地也可以在多任务范式中与其他任务（如图像字幕、VQA、检索等）一起进行预训练，以获得更通用的表示。代表性方法包括UniTAB [64]、OFA [49]、UNINEXT [196]、HIPE [197]、ViLBERT [198]、VL-BERT [199]、ONE-PEACE [200]、mPlug [150]等。可参考综述论文[201]、[202]。

自2023年起多模态LLM的接地

（a）动机。根据视觉落地的定义，传统的基于检测器和基于VLP的方法面临着几个挑战。首先，由于大多数现有的落地工作依赖于固定框回归头，因此仅遵循视觉落地的狭义定义，因此很难实现广义落地。其次，作为开放世界的环境，视觉落地应该支持任意语言查询；然而，传统方法受到固定训练和测试集（例如 RefCOCO/+/g 数据集）的限制，限制目标类别和文本内容。第三，参考和落地通常用于对话场景；然而，传统方法只在一轮内完成落地。换句话说，当前的模型缺乏在进行落地操作的同时进行自然语言对话的能力。

（b）研究现状。利用 LLM 解决建立落地问题的一个区别在于输出边框的表示。Shikra [22] 先驱探索 GMLLM 并进行实验验证，通过直接使用坐标数作为文本词汇证明其卓越的性能。虽然 KOSMOS-2 [34] 也是一项早期工作，但它主要以 KOSMOS-1 [209] 为基础，通过指令调整 [161] 验证 MLLM 在零样本和少样本落地方面的能力。在后续研究中，Ferret [53] 引入混合区域表示，并通过构建空间-觉察视觉采样器，实现自由形状和任意粒度的开放词汇描述落地。Ferret-v2 [168] 结合多尺度 DINOv2 [210] 特征，通过三步训练实现任意分辨率的落地和参考。同样，Lava-grounding [97] 采用与 Ferret 类似的模型架构，但在输入（例如点击、框和标记）和输出（例如文本、框、掩码和标记）方面提供更大的灵活性。为了调和区域级和图像级视觉和语言 (VL) 任务之间的内部冲突，LION [54] 采用三阶段指令调整策略，提出一种基于 Mixture-of-Adapter 结构 [211] 和 BLIP-2 Q-former [212] 的细粒度空间-觉察视觉知识逐步集成方法。Grounding-GPT [155] 以 ImageBind 和 Q-former 框架为基础，不仅实现视觉落地，还实现视频落地和音频落地。同样，在 RES 任务中也出现基于 MLLM 的相关工作（例如 GLaMM [213]、LISA [214]、GSVA [215]、UniMLLM [216]、F-LMM [217]、VistaLLM [166]）。总的来说，这些模型采用多步训练策略（例如三步 [54]、[156]、[168]），并遵循相对相似且简单的框架，本质上采用如图-(e) 所示的范式。注：如图（a-d）介绍 2 + 1 范式、 2 + 2 范式、2-编码器范式和单塔范式。

(c) GMLLM 技术。作为 MLLM 的一种，许多常用技术都适用于 GMLLM。在 Shikra [22] 中，作者引入落地思维链 (GCOT) 的概念，它通过结合引用推理能力扩展传统的思维链 (COT) [223]。对于不同粒度的任务，例如图像级和区域级任务，LION [54] 采用 Mix-of-Adapters (MOA) 机制，在冻结的 LLM 中使用路由器来动态集成从视觉分支和 LLM 适配器获得的视觉知识。同样，LoRA [189] 已在 Next-Chat [153] 和 LISA [214] 等模型中证明其有效性。

(d) GMLLM 的数据集和基准。许多当前的研究都提供特定于 GMLLM 的数据集。

具体而言，(a) 2+1 结构以 TransVG [10] 为代表，它主要采用与视觉和语言无关的编码，随后利用融合编码器进行跨模态特征融合。该架构结合特殊区域 token 来回归落地结果。 (b) 2+2 结构以 MDETR [33] 为例，遵循原始 DETR [146] 模型的结构。它集成查询锚点来生成落地框，使其与检测和分割任务更兼容。由于模态编码和特征融合的分离，该架构可以在预训练阶段无缝适应各种预训练范式（例如，图像-文本匹配（ITM）、序列到序列生成、掩码语言模型（MLM））。因此，它在早期的一般表示学习研究中被广泛采用（例如，FIBER [149] 等）。但其缺点是模块庞大导致参数数量过多和训练成本高。（c）2-编码器结构解决结构（a）和（b）中存在的参数冗余问题。通过直接丢弃融合模块，这些结构实现更高的效率。（d）单塔结构（如 OneRef [72]）通过利用模态共享特征空间，消除复杂的集成设计和冗余参数，从而实现效率和良好的性能。同样，其他工作如 YORO [65]、ScanFormer [229]、SimVG [228] 等，主要受益于单塔主干网络的预训练表示，即 ViLT [145] 和 BEiT-3 [48]。最后，（e）GMLLM 结构。当前的 GMLLM 基本上遵循这种结构的范式，包括对视觉信息进行编码并将其映射到 LLM 的特征空间中，从而将落地任务制定为自回归语言任务。

弱监督方法

由于其相对较少的数据依赖性，这种方法在过去十年中引起极大的关注。如表所示，与全监督的演变类似，将现有的 WSVG 方法分为两类：传统基于提议的方法和基于 VLP 的 WSVG 迁移方法。

基于提议的方法

由于 WSVG 缺乏用于训练期间监督的真实框注释，一个直观的想法是利用现成的检测器来生成图像提议。该流程与传统的两步全监督网络相似，因此启发 2016 年 [231] 以来的大多数现有方法，将 WSVG 构建为多实例学习 (MIL) [251] 框架内的区域-文本排名问题。这些方法的主要挑战在于从图像-文本对中提供有效的监督信号。为了解决这个问题，研究人员采用各种技术，如句子重构、对比学习 (CL)、关系-觉察实例细化、伪标记和单步法等。

WSVG 在实现准确的跨模态落地能力方面仍然面临挑战。具体而言，首先，这些尝试通常依赖于预计算的一组候选框，其中包含大量干扰项或背景区域，因此很难确定正确的匹配。其次，由于外部检测器施加的约束，候选框通常在学习过程中保持不变，从而导致落地不精确。第三，这些方法通常通过使用基于注意的特征聚合或编码谓词三元组来隐式表示名词短语或视觉目标上下文。这种表示很难捕捉图像-句子对之间关系中固有的丰富语义，从而阻碍细粒度的跨模态对齐并引入歧义。

基于 VLP 的 WSVG 迁移

(a) VLP 辅助 WSVG。与全监督的发展类似，研究人员旨在通过利用 VLP 模型的跨模态对齐能力来增强 WSVG。具体而言，一方面，CPL [245]、g++ [76]、RefCLIP [77]、QueryMatch [246]、UR [247]、VPT-WSVG [254]、PPT [67] 等方法利用 VLP 模型（例如 CLIP [47]、BLIP [256] 等）的跨模态对齐能力来提高计算提议-文本相似度时的置信度排名。

(b) 基于 VLP 的 WSVG 迁移。此外，一些 VLP 模型(例如 ALBEF [46]、X-VLM [244] 等)尝试通过落地任务来验证其细粒度对齐能力。然而，由于粗粒度 VLP 缺乏直接的落地能力，这些方法通常执行输入图像和文本之间的跨模态交互以生成跨模态注意图。随后，通过将该注意图叠加到原始图像上，创建跨模态激活图(例如 Grad-CAM [257])。然后，使用附加检测器以弱监督方式生成候选框。最后，模型根据激活图计算并对这些候选框进行排序，以识别得分最高的提议。在这些方法中，由于 VLP 模型在预训练阶段已经从大规模未标记数据对中获得全面的跨模态表示，因此它们只需要对落地任务进行最少的微调，就能取得显著的性能。

半监督方法

半监督视觉落地 (SSVG) 旨在通过利用有限的标记和未标记数据来提高模型的性能。与 WSVG 相比，半监督方法相对少见。考虑到未标记数据的存在，很自然地会考虑采用伪标签生成方法来注释未标记样本 (例如 PQG-Distil [258])。此外，可以利用自定进度的课程学习 [28]、[259] 或自训练框架从标记子集中获取更鲁棒的模型，随后细化和过滤未标记样本 [260]。或者，可以采用知识蒸馏来使用标记子集训练更强大的教师模型，然后将其知识迁移到基于未标记数据的学生模型中 (例如 PQG-Distil [258])。具体来说，在 [231] 中，通过使用注意机制来重建给定短语以进行落地，解决了语言注释和边框可用性有限的挑战。在 LSEP [56] 中，研究目标没有标记查询的场景，并提出了一个位置和主题嵌入预测器来生成必要的语言嵌入，以注释训练集中缺失的查询目标。此外，SS-Ground [57] 利用现成的预训练落地模型来生成伪注释，以在多尺度上进行区域短语对齐。

无监督方法

为了进一步减少对劳动密集型标记数据的依赖，早期的无监督视觉落地 (USVG) 研究 [58]、[68]、[261] 尝试通过利用基于预训练检测器和超大规模语料库的未配对图像和查询来解决此问题。然而，图像查询和查询框双重配对的方法都存在挑战。相比之下，Javed [262] 利用一组图像短语对中的语义共性来生成监督信号。Pseudo-Q [59] 提出使用目标和属性检测器的模板伪标签生成，有效消除双重配对引起的错误。与Pseudo-Q 不同，CLIP-VG [28] 引入三种伪语言标签来源，并提出自定进度的课程自适应算法，以自训练的方式在分类受限伪标签的可靠性和多样性之间取得平衡 [263]。其他研究，如 Omini-Q[264]和 VG-annotator[265]，也遵循类似的生成伪标签概念。

零样本设置

为了进一步减轻数据依赖性并增强模型的域泛化能力，使其不受训练或预训练集的限制，提出零样本设置。如表所示，根据现有文献将零样本设置粗略地分为四类，即基于新目标和未见过名词短语的落地、开放词汇视觉落地、无需微调的带提议预训练模型、以及直接使用预训练模型的落地。

为新目标和未见过的名词短语落地

视觉落地不同于检测任务，因为落地文本不是简单的类别词，而是自由形式的短语或句子。此外，查询文本不限于固定类别（例如，“正确的一个”没有指定目标的类别）。因此，严格定义落地任务的零样本设置变得具有挑战性。2019 年，asadhu [60] 首次引入一种可接受的零样本落地设置。如图-(b) 所示，假设训练期间查询的参考主题是基类，测试期间查询的参考主题是新类，ZSGNet [60] 将这个新类分为四种情况，即：(1) 情况 0：其测试集中参考名词不包含在其训练集中；(2) 情况 1：其测试集中参考目标的类别未被其训练集覆盖； (3) 情况 2：测试集中与参考目标语义上接近的目标仅出现在训练集中；(4) 情况 3：测试集中与参考目标语义上接近的目标不仅出现在训练集中，也出现在测试集中。同时，为了方便零样本设置，Flick30k Entities 和 Visual Genome 数据集基于这 4 种情况分别划分为 Flickr-split-0、Flickr-split-1、VG-split-2 和 VG-split-3 [60]。同样，2023 年，CLIPREC [266] 继续重组 RefCOCO/+ 数据集，并遵循 ZSGNet 中情况 0 和情况 1 的规则构建 RefCOCOZ/+ 数据集。TransCP [277] 引入上下文解耦和原型继承策略来感知新目标。注：如图-（a）是全监督，-（b）是开放词汇。

开放词汇视觉落地

开放词汇 (OV) [278] 是零样本学习中的一个特殊设置。它的概念最早是在 OVR-CNN [102] 中提出的，随着 CLIP 的引入，它已成为检测领域的流行设置。如图所示，与传统的零样本学习定义不同，开放词汇落地 (OVG 或 OVVG) 指的是在预训练阶段，模型可能会接触到更广泛的词汇，这些词汇可能包括也可能不包括基类和新类。然而，视觉落地本身代表一种自然的开放词汇设置，因为它是用长而开放的查询文本训练的。然而，最近使用大规模预训练模型（例如 CLIP）的研究超越传统零样本设置的限制，为了公平起见，应该将其与 OVG 区分开来。具体来说，wang [62] 建议在零样本框架中使用 CLIP 作为文本编码器，同时利用额外的训练数据来增强对新类别的泛化。CLIPREC [266] 集成现有用于提议提取的检测器，并将 CLIP 纳入基于图的自适应网络中，以提高对新类别识别的感知能力。此外，GMLLM（例如 Ferret [53]、KOSMOS-2 [34]、GEM [279] 等）应被视为一种自然的 OVG 方法。

视觉落地研究的综述

正文

请到「今天看啥」查看全文