专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

开源性能最强！中大和美团提出OV-DINO：语言感知的开放域目标检测方法！

极市平台 · 公众号 · · 2024-08-01 22:00

正文

↑ 点击蓝字关注极市平台

作者丨CVer

来源丨CVer

编辑丨极市平台

极市导读

中山大学和美团联合提出新的开放域检测方法OV-DINO：基于语言感知选择性融合、统一的开放域检测方法，取得了开放域检测新SOTA，目前开源性能最强的开放域检测模型！（比GroundingDINO高12.7% AP！比YOLO-World 高4.7% AP！） >> 加入极市CV技术交流群，走在计算机视觉的最前沿

项目： wanghao9610.github.io/OV-DINO

论文： https://arxiv.org/abs/2407.07844

代码（已开源）：

https://github.com/wanghao9610/OV-DINO

在线Demo： http://47.115.200.157:7860/

1. 亮点

OV-DINO 是一种新颖的统一的开放域检测方法，能为实际应用提供出色的性能和效果。
OV-DINO 提出了一个统一的数据集成管道，用于整合多种数据源进行端到端的预训练；并提出了一个语言感知选择性融合模块，以提高模型的视觉语言理解能力。
相比之前的方法，OV-DINO 在 COCO 和 LVIS 基准上显示出显著的性能提升，在零样本评估中，相比 Grounding-DINO 分别在 COCO 上提升了 2.5% AP，在 LVIS 上提升了 12.7% AP。

2. 摘要

开放域检测是一项具有挑战性的任务，因为它需要基于类名检测对象，包括在训练过程中未遇到的类名。现有的方法通过在多样的大规模数据集上进行预训练展示了强大的零样本检测能力。然而，这些方法仍然面临两个主要挑战：(i) 如何高效整合多样的数据源以进行端到端训练，(ii) 如何有效利用语言感知能力进行区域级的跨模态理解。为了解决这些挑战，我们提出了一种新颖的统一的开放域检测方法OV-DINO，该方法在多样的大规模数据集上进行预训练，并在统一框架中进行语言感知的选择性融合。具体来说，我们引入了一个统一的数据整合（UniDI）管道，以实现端到端训练，并通过将不同的数据源统一到以检测为中心的数据中来消除伪标签生成带来的数据噪声。此外，我们提出了一个语言感知选择性融合（LASF）模块，通过语言感知的查询选择和融合过程来实现模型的语言感知能力。我们在流行的开放域检测基准数据集上评估了所提出的OV-DINO的性能，以零样本方式在COCO数据集上实现了50.6%的AP，在LVIS数据集上实现了40.0%的AP，展示了其强大的泛化能力。此外，在COCO数据集上微调的OV-DINO实现了58.4%的AP，超越了许多使用相同骨干网的方法。

3. 方法

本文提出了一种名为OV-DINO的开放域检测方法。该模型在统一预训练框架内利用多种数据源实现了端到端预训练，在多个开放域检测数据集上取得了当前最好的性能表现。

3.1 整体框架

OV-DINO的整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入，通过特定模板创建统一的文本嵌入表示。图像和文本嵌入经过编码器处理后，图像嵌入通过Transformer编码器生成精细化的图像嵌入。语言感知查询选择模块选择与文本嵌入相关的对象嵌入，并在解码器中与可学习的内容查询融合，最终输出分类分数和回归边界框。

3.2 统一数据集成（UniDI）

在预训练阶段，OV-DINO将检测数据、定位数据和图像-文本数据转换为统一的检测数据格式，从而简化模型优化过程并提高性能。检测数据和定位数据的集成相对简单，而图像-文本数据的转换则通过将图像描述视为图像的唯一类别来实现。所有文本输入都通过简单模板进行统一处理，确保一致的文本嵌入表示。

3.3 语言感知选择性融合（LASF）

该模块包括语言感知查询选择和语言感知查询融合两个关键组件。查询选择组件通过评估图像嵌入和文本嵌入的相似性来选择对象嵌入。查询融合组件逐步融合语言感知对象嵌入，同时保留内容查询的原始语义。语言感知查询选择通过计算图像嵌入和文本嵌入的相似性矩阵，并选择最相关的嵌入。查询融合则在解码器层中动态更新内容查询，逐步引入语言感知上下文。

3.4 预训练

OV-DINO采用检测中心的数据格式，将不同类型的数据（检测数据、定位数据和图像-文本数据）转化为适合检测的格式，允许在统一的框架内进行预训练。模型的前向传播过程包括图像编码器提取图像嵌入、文本编码器提取文本嵌入、Transformer编码器生成精细化图像嵌入、语言感知查询选择模块选择对象嵌入，以及Transformer解码器通过选择性融合模块进行查询分类和边界框回归。模型通过统一的分类损失函数和目标框损失函数进行优化。

通过上述设计，OV-DINO实现了开放域检测的高效预训练和性能提升。

4. 实验

4.1 实验设置

OV-DINO使用Swin Transformer作为图像编码器和BERT-base作为文本编码器的模型架构，通过统一数据集成（UniDI）流程整合了多样化的数据源，如Objects365、GoldG grounding和Conceptual Captions图像-文本数据集，进行端到端的预训练。在此基础上，引入了语言感知选择性融合（LASF）模块来优化跨模态的语义对齐。在预训练阶段，批量大小为128，训练周期为24个epoch，使用了AdamW优化器，学习率调度采用多步衰减策略。在COCO数据集进行了额外的微调，批量大小为32，设置了更小的学习率。在COCO和LVIS基准数据集上进行评估，采用平均精度（AP）和固定平均精度（Fixed AP）作为主要指标。

4.2 主要实验结果

4.2.1 COCO Benchmark

在零样本评估设置中，OV-DINO在COCO 2017验证集上取得了50.6%的平均精度（AP），这在同类方法中表现突出。该结果显著优于先前的方法，GLIP和G-DINO，显示了OV-DINO在处理未见类别时的强大泛化能力。在COCO数据集上进行微调后，OV-DINO进一步提升了性能，达到了58.4%的AP，刷新了该领域的记录。这一结果证明了OV-DINO不仅在零样本情况下表现出色，通过进一步的微调也能在封闭词汇集上实现卓越的检测性能。

4.2.2 LVIS Benchmark

在零样本评估设置中，OV-DINO在LVIS MiniVal数据集上取得了40.1%的AP，显著优于其他现有方法，如GLIP和G-DINO。在LVIS Val数据集上，OV-DINO也展现了强大的性能，取得了32.9%的AP。OV-DINO在处理LVIS数据集中的长尾类别时表现出色，能够检测到稀有（rare）、常见（common）和频繁（frequent）类别的物体。在LVIS MiniVal数据集上，OV-DINO在稀有类别上取得了34.5%的AP，在常见类别上取得了39.5%的AP，在频繁类别上取得了41.5%的AP。

4.3消融实验结果

4.3.1统一数据集成（UniDI）

消融实验显示，UniDI通过将不同数据源整合到统一的检测中心数据格式中，显著提高了模型在LVIS MiniVal数据集上的性能。

4.3.2 语言感知选择性融合（LASF）

LASF模块通过动态选择与文本输入相关的对象嵌入，并将其与可学习的内容查询融合，进一步提升了模型的跨模态对齐能力。

4.3.3 LASF变体比较

对LASF的不同变体（Later-LASF, Middle-LASF, Early-LASF）进行了比较。结果显示，Later-LASF变体在零样本转移能力上表现最佳，被选为OV-DINO的默认架构。

4.3.4 文本嵌入池化方法

消融实验研究了不同的文本嵌入池化方法（如均值池化和最大值池化）对模型性能的影响。结果表明，均值池化在结合使用O365和CC数据集时表现更好，这有助于捕获提示文本的全面表示。

4.3.5 图像-文本数据源的影响

通过比较不同来源的图像-文本数据（如基于图像-文本相似度排名的底部100K样本、随机选择的100K样本和顶部100K样本）对模型性能的影响。结果显示，排名最高的数据源表现最佳，而排名最低的数据源表现最差，这突出了图像-文本数据集中不可避免的噪声，并强调了过滤操作的必要性。

5. 可视化结果

5.1 COCO可视化结果比较

可视化结果显示，OV-DINO能够准确地检测出图像中定义的所有对象，并且置信度分数较高。与GLIP和G-DINO等其他方法相比，OV-DINO的预测更加精确，并且能够检测到标签中未标记的额外对象。

5.2 LVIS可视化结果展示

LVIS数据集包含超过1000个类别，OV-DINO在零样本推断中展现了其检测多样化实例的能力。可视化结果突出了OV-DINO在长尾类别上的性能，显示出在图像中检测到丰富多样的物体类别，并且预测结果具有高准确性。

通过在COCO和LVIS数据集上的可视化结果，OV-DINO证明了其强大的零样本泛化能力，即使是在面对训练期间未遇到的类别时也能进行有效的检测。