专栏名称: 江大白

专业有趣的AI内容平台，关注后回复【算法】，获取45家大厂的《人工智能算法岗江湖武林秘籍》

万字长文，深入浅出开放词目标检测算法！

江大白 · 公众号 · · 2025-01-07 08:00

正文

6、

以下文章来源于微信公众号： AI上分搭子

作者： AI助攻搭子

链接：https://mp.weixin.qq.com/s/nDnfjC_J2UixNf7gdUcYXA

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

过去几年，目标检测在各种场景中得到了广泛应用。然而，模型依赖于有限的、有标签的数据集，难以适应不断变化的现实场景，这种局限性促进了开放词汇目标检测的发展。对此，本文详细梳理开放词目标检测的发展状况，希望对读者有所帮助！

1. 一些名词简介：从设定到基准

目标检测（Object Detection）是计算机视觉中的核心任务，既需要回答图片中的目标"是什么"（类别识别），又需要回答这个目标"在哪儿"（位置定位）。然而，传统目标检测方法通常依赖于预定义的固定类别进行训练和预测，难以适应动态或开放场景中出现的未知目标。这就引出了零样本目标检测 (Zero-shot Object Detection) 和开放词汇目标检测 (Open-vocabulary Object Detection) 这两个具有前沿意义的研究方向，即让模型拥有在没有见过特定类别的情况下识别新类型的目标的能力。

由于这两个概念经常存在交叉和混用，本文统一将能够实现零样本检测、目标定位以及通过视觉提示完成少样本推理的模型，称为开放词汇检测模型。接下来，我们将从任务简介入手，系统地介绍开放词汇检测的常用数据集，代表性方法以及近年来多模态大模型在这一领域的应用与进展，并对这一研究方向进行全面的归纳和总结。

本文提到工作的论文链接，接收情况和 GitHub 仓库，都会在全文结尾处提供哦！

1.1. 任务简介

在读论文的时候，经常会遇到一个模型能够做一些零样本检测任务之外的任务。同时，零样本检测任务与开放词检测任务有时又会以不同的评价形式被分开讨论。在这里，我们将这些名词放在一起做一个对比：

• 零样本 (Zero-shot): 一般指这个模型不在目标测试集对应的训练集上进行了广泛的预训练。然后评价这个模型的性能，是在目标测试集上进行，测试的时候，我们除了图片之外，会给模型测试集中会出现的目标名词，例如： [啤酒，人，微波炉，马，狗，披萨，桌子，汽车] 。
• 开放词 (Open-vocabulary): 虽然很相近，但评估这个赛道的算法，一般是将模型在基础类 (base) 上训练后，在新类 (novel) 数据上进行测试。这两个数据集不会在类别上有重叠，例如：base: [人，微波炉，披萨，吹风机，桌子，汽车] novel: [啤酒，可乐，打火机，烤箱，吹风机，汉堡，飞机] 。
• 少样本 (Low-shot): 比较少见，一般出现在视觉提示任务相关的工作中，例如少样本推理，或者目标计数。在训练/测试时，提供了具有与目标测试集中的目标相同分布和类别的样本。
• 视觉定位 (Visual grounding) / 指代理解 (Referring Expression Comprehension): 通常有两个形式：

• 根据给定的文字描述，在图像中定位和识别出与描述相关的目标对象。例如： [ 穿着黄色短裤的那个人 ] 又例如： [ 从左数第二个人 ] 模型应该根据描述输出目标的 "那个人"。
• 给定一段文字，找出图中与文字中所有提到的物体对应的目标。例如： [ 一名黑发女子坐在红色毯子上，张着嘴，抱着一个小女孩 ] 模型应该将句子中的所有实体识别出来，然后输出黑发女子，红色毯子，嘴，小女孩等目标框和对应分类。

1.2. 常见数据集：预训练与评估

• Detection 数据集：标注内容为目标与物体。用于预训练：Object 365 v1/v2 (o365)，OpenImage v6/v4，ImageNetBoxes，V3Det，CrowdHuman 等；用于零样本评估：COCO2017val，LVIS minival/val，ODinW13/35 (object detection in the wild)，Roboflow100 等；
• Visual grounding 数据集: 一句/多句话与对应的所有/那些物体。用于预训练 GoldG: GQA，Flickr30k，VisualGenome，PhraseCut 等；用于指代理解和视觉定位评估：RefCOCO，RefCOCO+，RefCOCOg；
• Image-text (Image caption) 数据集: 一张图和一句或多句针对这张图的描述。用于预训练：CC12M，LAION400M (一般来说会从中选取一个子集，并用其他预训练模型做伪标签)；
• Image region 数据集: 无分类的目标标注，例如用于训练 Segment Anything Model 的 SA-1B；
• 其他数据集：例如计数数据集 FSC147, FSCD-LVIS 等也会在评估或预训练中出现。

1.3. 经典工作概况

从 IDEA 的最新工作 DINOX [1] 中，我们可以看到一众 SOTA 开放词检测"大"模型性能的比较。这里的"大"没有官方的具体定义，本文指用 Large 级别的 backbone 的模型，例如 Swin-L，CLIP-L，ViT-L 等。同时，"大"也可以从多任务的角度来看，如 APE [2]，GLEE [3]，OpenSeeD [4]，以及 DINOX 等是可以额外实现例如目标分割，图片理解，目标追踪等任务的。

在这些工作中，开源代码或者仅开放某些权重文件和推理脚本的有 APE，GLEE，DINOv [5]，MDETR [6]，GLIP [7]，GroundingDINO (GDINO) [8]，OpenSeeD，UniDetector [9]，OmDet-Turbo [10]，OwL [11]，MQDet [12]，MM-GDINO [13]，YOLO-World [14]，OV-DINO [15] 和 SAM [16]。其中提供的权重一般为 Tiny/Base 级别，例如 OmDet-Turbo-T，GDINO-B 等。

在下面展示的实时 (Real-time) 开放词目标检测模型性能比较中，完全开源的工作只有 YOLO-Wolrd。同时，实时检测模型一般只比较零样本检测能力，但 YOLO-World 在演示中也表现出了指代理解的能力。

2. 经典工作速览

在这一节，我们将速览几篇经典工作：GLIP，GDINO，Region-CLIP [17]，DetCLIP [18]，OwL-ViT。这些工作大部分都有更新性能更强大的版本，例如GLIPv2 [19]，DetCLIPv2 [20]/v3 [21]，OwL-ST [22]，GDINO pro [23] 等。这些工作在结构和输入设计中具有代表性，后面的很多作品都有他们影子，例如 YOLO-World，OV-DINO，OVLW-DETR [24] 等。具体来看这些工作的贡献，主要是四点：

1. 如何构建数据管道（data pipeline）：如何更好地使用 Image-text pair 数据，例如如何更好地给伪标签。
2. 多模态结构设计：是否有显性的多模态融合模块，例如多模态的 cross-attention

• 有：GDINO，GLIP，YOLO-World
• 无：RegionCLIP，OwL-ViT，DetCLIP

3. 如何处理文本输入：

• 连续/并行：GLIP-GDINO 模式 / DetCLIP 模式
• 文本输入的加强：概念辞典 (concept dictionary) 等

4. 检测器设计和修改：基于 Detection Transformer（DETR），基于 YOLO，基于 Region proposal（RPN），以及基于修改的 Encoder。

2.1. GLIP - GroundingDINO

GLIP 与 GroundingDINO（GDINO）都是以 Bert 为文本编码器，同时拥有多模态融合模块的工作。在结构，GLIP 提出了 Deep fusion，将 Bert layer 中的特征与视觉特征进行融合。这种深度融合结构在之后的工作中并不常见。

相比来说，GDINO 的融合策略在后面的工作中比较常被借鉴。如下图的工作流，GDINO 包括三个主要组成：Image backbone（Swin），Detection Transformer（DINO），Language backbone（Bert）。GDINO 采用 Bert 输出的文本特征进行基于三个层面的融合，即 Feature Enhancer，Language-guide Query Selection 以及 Contrastive learning。其中，Feature Enhancer 中的多模态融合 cross-attention 会输出两个模态融合后的特征给到检测器的Decoder中。

从训练的角度，GLIP设计了一些在之后工作中很常用的预训练设定，即三个benchmark，o365v1+Tiny级别的backbone 的预训练；o365v1+GoldG 的预训练；o365v1+GoldG+Data pipeline自制标签数据集的预训练。后两个基准一般会使用 Base 或者 Large 级别的模型。

2.2. RegionCLIP - DetCLIP - OwL

从 RegionCLIP，DetCLIP 到 OwL-ViT，算法设计的出发点都是直接对齐区域与文本信息。相比于基于检测模型和Bert的开发词检测模型，这类算法的重点不在结构上，而是在预训练上：这三个算法都没有基于 cross-attention 的多模态融合模块，也没有基于 DETR 的目标检测器。

RegionCLIP 的重点在于使用预训练的 CLIP 对 RPN 给出的区域进行伪标签标注并训练了一个相同结构 CLIP image encoder，然后在人工标注的数据集上进行微调。OwL-ViT 也进行了预训练与目标检测的微调，并进行了大量的消融实验得到了很多宝贵的论据，例如作者证明在大规模预训练中，ViT架构相比纯卷积和混合结构有更强的性能；在大数据上过度训练参数量小的模型会导致性能降低；文本编码器需要使用一个很小的学习率进行更新，过大的学习率和完全冻住都会使性能下降等等。

下图是 OwL-ViT 的结构。在进行类似 CLIP 的 Image-level 预训练之后，修改 Image encoder 的输出层，直接进行开放词检测的训练，整个结构十分简约，和 CLIP 模型十分类似。合理猜测 OwL-ViT 的图像编码器提出的特征质量也很高，可以作为很好的预训练权重使用。

DetCLIP 在结构上使用 Swin（image encoder）+ ATSS（detector）+ FILIP（text encoder），同样没有多模态融合。同时，其在训练上对文本输入进行了更多的设计。具体地，DetCLIP 提出使用概念字典（concept dictionary）对不同数据源的词汇标签映射到统一的描述上，这样既可以减少训练时的名词歧义，还可以增加名词的表征。如下表所示，同时使用类名和其描述，能够稳定提升检测性能。这可以看作提示词工程中的一个方案，在零样本分类任务（Zero-shot classification）中的经典工作，如 VCD [25] 等策略也有类似的设计。

另一个文本上的设计是并行输入策略。DetCLIP 与之前工作在文本输入中最大的不同，是将一维的文本输入转为了二维的输入。原本文本输入是将所有的词放进同一个句子里，并用一个掩码对正负样本进行区分，而 DetCLIP 相当于将每个词或描述当作单独的句子看待，正负样本的单位也变为了句子。如下图所示，最右侧对于正负样本的掩码，是根据描述某个词的整个句子进行的，同时将输入从顺序变成了并行的二维输入。

2.3. 经典工作小结

2.3.1. 多模态结构设计与文本输入形式的设计关系

从这些工作总结看来，我们发现多模态融合模块与文本输入形式十分相关。GDINO 和 GLIP 这样有着显性的多模态融合模块，例如多模态cross-attention的模型，都是采用的连续文本输入的形式。而 DetCLIP 这样的工作没有融合模块，同时它们采用的是并行文本输入，甚至使用了 concept 的输入形式。我们认为这样的区别存在一些理由：

1. 并行的输入与多模态融合可能不适配：并行输入需要将每一个文本输入（名词或者描述）对应的 token 填充（padding）到相同的长度之后，才能将这些文本输入放入同一个tensor。而在多模态融合的时候，需要将并行输入的文本 token 变回连续输入的形式。由于很多文本 token 都经过了填充，在转为连续输入之后，就会变得非常长，在输入是 concept 的时候尤为明显。首先，这样很难预定义文本输入在连续化之后的最大长度，来初始化多模态融合模块。同时，这种情况下进行 cross-attention 会大幅增加计算消耗。连续输入的形式不需要过多的填充，可以预定义最长的输入 token 数，并进行 cross-attention。
2. 输入形式并不影响区域与文本对齐：在对比学习部分进行区域和文本对齐时，顺序还是并行的区别并不大。相比直观的并行输入，顺序的输入需要提供掩码。同时，在使用 DETR 类型的检测器时，文本输入也会参与到匈牙利匹配中，此时也需要提供掩码等信息。总之连续输入对代码细节要求更高，但在算法上两种输入方式没有本质区别。

2.3.2. Zero-shot Detection 和 Grounding 的任务差异与模型设计的关系

同时我们还发现，多模态融合模块与能否做 Grounding 任务是必要不充分条件：能够做 Grounding 的模型，如 GLIP，GDINO，YOLO-World，都是有多模态融合机制的，而仅关注/报告零样本目标检测结果的模型并没有多模态融合模块，例如 DetCLIP，OV-DINO，OwL-ViT 等。不过这是一个经验性的发现，还需要更多的实验和理论支撑，探索多模态融合与任务广度的关系。

3. 经典工作速览 3. 一些衍生基准与工作

开放词检测有很多衍生工作，例如提示工程 (Prompt engineering)。这里的提示工程与同ChatGPT聊天不同，但有着相似的作用——让模型更好地进行明白输入的信息。在与CLIP相关的零样本分类 (Zero-shot classification) 工作中，有很多知名的提示工程工作，例如 CoOP [26]，CoCoOp [27] 等。面向开放词检测也有很多有趣的工作，在这里我们将这些衍生工作分为以下几类：

1. 视觉提示：CountGD [28], MQDet, MMOVOD [29], OVMR [30], DeViT [31], DINOv, T-Rex1 [32], T-Rex2 [33] 等

• 任务：

• 计数 CountGD，T-Rex
• 少样本学习 DeViT
• 微调 MQDet (MQ-GLIP, MQ-GDINO)

• 方法：

• 引入视觉提示器或提示编码器 (Prompt encoder)，以及探索不同的多模态特征融合方式 MQDet/CountGD，MMOVOD/OVMR, T-Rex

2. 文本提示：SHiNe [34]，LaMI-DETR [35] 等文本提示工程；
3. 生成相关：GenerateU [36] 等区域文本生成的工作。

3.1 视觉提示工作

我们将不会深入介绍每个工作，而是总结性地给出它们设计的不同以及不同的原因。首先，我们发现一些工作似乎做着相似的事情，但又并不仅是提升性的贡献，例如 MQDet, CountGD 和 MMOVOD, OVMR。

MQDet与CountGD都是基于GLIP或GDINO型的检测模型，前者是修改文本编码器Bert，使其具有视觉提示能力，后者是向GDINO中的检测器中添加cross-attention和self-attention，将视觉提示当作第三种模态进行模态融合。MMOVOD和OVMR同样是为检测器加入视觉提示：基于Detic模型，两个工作使用CLIP对多模态进行编码，并在Detic模型上进行提示与区域的对齐。

这两类工作设计上的不同实际上源自于检测器的文本编码器不同：GLIP/GDINO 是基于 Bert 的，而 Detic 是基于 CLIP 的。基于 CLIP 的工作由于可以使用 CLIP 的视觉编码器对视觉提示进行编码，就不需要像 MQDet 这类工作对文本编码器或者检测器进行修改。如下图所示，MQDet 中的可训练 GCP 模块是被植入了 Bert Text encoder 中的。

这两类工作服务的对象是不同的，但是一些设计理念是可以借鉴的。例如 MQDet 中，为了避免多模态学习中，文本提示学习过于强大以至于模型没有学到视觉提示，会对文本提示进行掩码处理。CountGD 将视觉提示当作了第三模态，在检测器中加入了一些额外的 cross-attention，这些操作都可以应用在 MMOVOD 这类使用 CLIP 的工作里。

另一类工作，是类似 Segment Anything Model（SAM），对用户的交互提示输入，例如点，框，掩码等进行编码，而不是对于对应的目标进行显性的编码。DINOv, T-Rex 系列，以及后来的 DINOX，都是此类操作。下图是 T-Rex2 中，对 visual prompt 的处理。

利用位置信息和 Transformer 自身的能力，对所画区域进行隐式编码是十分优雅的。但这类工作在训练上不如上一段介绍的工作那么直观：MQDet 或 MMOVOD 是显性地将视觉提示拿出来输入给模型的。这样可以使数据处理与模型训练解耦，将处理视觉提示作为数据预处理；而 T-Rex 一类的工作给模型的输入是一些交互提示，在数据处理上会更加复杂一些。

视觉提示任务关注的工作各不相同，例如 CountGD 着重关注计数任务，但实际上我们认为它也可以像 MQDet 一样做模型微调以及少样本推理任务，提升模型在下游数据集上的性能。DeViT 是做少样本学习的，但实际上也可以做基于少样本的计数任务。总之，视觉提示是提升交互体验的重要操作，除了定量的基准评估之外，在实际部署中的价值，例如在数据标注中的交互感提升，解除文本提示时的语义歧义等，或许是这类工作更重要的贡献。

3.2 生成区域文本内容

零样本分类或者检测，实际上都没有那么"零样本"：我们需要提前设定好文本，然后区域或者图片的类别会被映射到其最接近的文本。那么可以不提前设定文本吗？是可以的，在零样本的分类任务中，NXTP [37] 可以直接生成图片相关的词汇，其方法是在 CLIP 之后加入了一个生成解码器，作为语言模型进行标签预测。开放词目标检测也有类似的工作——GenerateU。GenerateU 在目标检测器之后接入了语言模型，进行区域的标签生成。

上图是 GenerateU 对于传统的开放词检测与生成式开放词检测做了一个对比。实际上，在多模态大模型中，此类任务和区域标注（Region captioning）很相似，例如下一节会提到的 ChatRex [38]，可以对区域进行具体和简洁等不同细粒度的描述。相比来说这是一个很新的方向，在性能上仍有很多提升的空间。

4. 多模态大模型与视觉定位

除了专门面向目标检测的开放词检测模型，还有很多视觉语言大模型 / 多模态大模型（MLLM）也可以实现视觉定位或者零样本分类。下面列举的工作都包含开源的权重，包括但不限于 Qwen-VL [39], CogVLM [40], Florance2-ft [41], DeepSeek-VL2 [42] Ferret [43] 和 ChatRex。这些经过超大规模数据的多阶段预训练的基座模型，能够通过任务微调具备定位能力，同时，这些工作一般会有 in-context 或视觉提示的能力。我们将在本节用一句话对其在视觉定位上的能力进行总结，并在本节最后给出这些模型的视觉定位结果的比较。

• Florance-2-ft 是在基座模型 Florance-2 的基础上进行视觉定位和目标检测的微调得到的模型。文中实验表明其预训练的图像 backbone 非常有用，可以加载到如DINO的闭集检测器中并有效提点，但同时相比于其他大模型，其参数量很少，最大的模型也不超过1B的参数，对部署比较友好。
• Qwen-VL, CogVLM, DeepSeek-VL2 通义，智谱和深度求索三款视觉语言大模型都可以进行视觉定位任务。同时参考 GitHub 上的一些评论，通过微调可以使这些模型的视觉定位或者目标检测能力进一步提升。
• Ferret 和 ChatRex 是苹果和 IDEA 的最新工作。它们都可以接受视觉提示，进行视觉定位和区域描述。其中 Ferretv2 暂时没有开放权重。ChatRex 在结构上继承了 T-Rex2 并提出 Universal Region Proposal 网络，即对输入图像进行粗略（Coarse）或精细（Fine）的区域提取，将多模态大模型基于词序列的对目标框的预测，转变为了对于目标框的检索。

由于发表时间各不相同，没有一个这些模型的视觉定位能力的横向比较。这里我们收集了技术报告或论文中的结果，呈现在下表：

Model	RefCOCO val	RefCOCO testA	RefCOCO testB	RefCOCO+ val	RefCOCO+ testA	RefCOCO+ testB	RefCOCOg val	RefCOCOg test
Grounding DINO-L	90.6	93.2	88.2	82.8	89.0	75.9	86.1	87.0
UNINEXT-H	92.6	94.3	91.5	85.2	89.6	79.8	88.7	89.4
DeepSeek-VL2-S	93.9	95.3	91.3	89.4	92.9	84.8	92.6	92.6
Florence-2-B	92.6	94.8	91.5	86.8	91.7	82.2	89.8	82.2
DeepSeek-VL2	95.1	96.7	92.7	91.2	94.9	87.4	92.8	92.9
CogVLM-Grounding	92.76	94.75	88.99	88.68	92.91	83.39	89.75	90.79
Florence-2-L	93.4	95.3	92.0	88.3	92.9	83.6	91.2	91.7
Qwen-VL-7B	89.36	92.26	85.34	83.12	88.25	77.21	85.58	85.48
Ferret-v2-7B	92.8	94.7	88.7	87.4	89.4	79.3	89.4	89.3
ChatRex-7B	90.1	93.0	85.2	85.2	89.6	79.3	88.8	88.6

我们可以看到，7B 和 Large 及以上级别的多模态大模型都展现出了相当强的指代理解性能。其中 DeepSeek-VL2 的性能很抢眼，超过了针对性开放词检测大模型GDINO-L以及针对性的多模态大模型 ChatRex 和 Ferret，其包括 27B 的总参数量，但激活参数量大约只在 4B 左右。在视觉定位任务上表现优异的同时，MLLM 还可以进行图像理解，面向特定区域的文本生成等任务。近日，MLLM 还能够与 CoT 结合，如 Qwen 的 QwQ 模型，得到令人感叹的图像理解能力。

5. 总结

开放词检测是闭集目标检测的延伸。无论模型中的检测器是基于 DETR，YOLO，还是 Encoder-only 的，算法设计的出发点都是通过大量学习，对齐区域视觉信息与对应文本信息，在推理时通过文本描述对感兴趣的目标进行检测。这一点和 CLIP 等文本图像对齐的模型类似。除了基于检测模型进行开放词检测，我们还可以使用多模态大模型进行这类任务。多模态大模型通过大规模多阶段多任务的图片文本预训练，通过文本描述提问与序列预测进行目标检测。

总之，开放词检测模型的开放性，本质上来自于大量的预训练。否则在一些非常见类别的检测上，性能不一定会优于针对性训练过的闭集检测模型。

同时需要注意的是，多模态大模型的主要任务是理解场景。在现实任务中，目标检测在一些情况下的最终目的也是为了理解场景：例如在场景中检测出了某个目标，或检测出某个目标具有了某个性质时，就表明发生了某个目标事件。在这种情况下，直接使用多模态大模型进行场景理解和问答，可能要比做目标检测并进行逻辑推理直接得多。

6. 参考文献

*序号对应文中的引用，这里我们按照模型类型和开源情况进行更清晰的分类。

开源工作（包括提供部分权重文件，仅提供推理代码不提供训练代码的工作）：

• 多任务模型：

• [2] APE（CVPR2024）

• Paper: https://arxiv.org/abs/2312.02153
• GitHub: https://github.com/shenyunhang/APE

• [3] GLEE（CVPR2024)

• Paper: https://arxiv.org/abs/2312.09158
• GitHub: https://glee-vision.github.io/

• [4] OpenSeeD（ICCV2023）

• Paper: https://arxiv.org/pdf/2303.08131.pdf
• GitHub: https://github.com/IDEA-Research/OpenSeeD

• 开放词检测模型：

• [6] MDETR（ICCV2021）

• Paper: https://arxiv.org/abs/2104.12763
• GitHub: https://github.com/ashkamath/mdetr

• [7] GLIP（CVPR2022）

• Paper: https://arxiv.org/abs/2112.03857
• GitHub: https://github.com/microsoft/GLIP/

• [8] Grounding-DINO（ECCV2024）

• Paper: https://arxiv.org/abs/2303.05499
• GitHub: https://arxiv.org/abs/2303.05499

• [9] UniDetector（CVPR2023）

• Paper: https://arxiv.org/abs/2303.11749
• GitHub: https://github.com/zhenyuw16/UniDetector

• [10] OmDet（IET Computer Vision）

• Paper: https://arxiv.org/abs/2403.06892
• GitHub: https://github.com/om-ai-lab/OmDet

• [11] OwL-ViT（ECCV2022）

• Paper: https://arxiv.org/abs/2205.06230
• GitHub: https://huggingface.co/docs/transformers/model_doc/owlvit

• [13] MM-GDINO（Arxiv2024）

• Paper: https://arxiv.org/abs/2401.02361
• GitHub: https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino

• [14] YOLO-World（CVPR2024）

• Paper: https://arxiv.org/abs/2401.17270
• GitHub: https://github.com/AILab-CVC/YOLO-World/tree/master

• [15] OV-DINO（Arxiv2024）

• Paper: https://arxiv.org/abs/2407.07844
• GitHub: https://github.com/wanghao9610/OV-DINO

• [17] Region-CLIP（CVPR2022）

• Paper: https://arxiv.org/abs/2112.09106