专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
51好读  ›  专栏  ›  深度之眼

超越YOLO检测一切!最强开集目标检测模型登场!学会这思路发文效率直接起飞

深度之眼  · 公众号  ·  · 2024-09-26 19:34

正文

还记得去年超火的Grounding DINO吗?最近IDEA研究院推出了它的全新升级版——Grounding DINO 1.5。这个升级版有俩版本,Pro版更强,Edge版更快。但无论是哪个版本都刷爆了目标检测SOTA,超越YOLO!

这种文本输入、即时识别的方法其实是 开集目标检测 的一种, 属于更先进的目标检测技术 。不同于传统方法,开集目标检测结合了传统的检测算法和深度学习, 具有很高的创新性 (论文er快码住),在实现高效且准确的检测方面更是没输过。

目前这方向已经有了不少可借鉴的研究,有的还被ECCV等顶会收录,但一些具有挑战性的问题依然没有解决...说明还有idea可挖掘,可见 也是个发论文的好方向。 我这边为了给大家提供新思路,整理了 9篇 开集目标检测最新成果 来分享,开源代码也有。

扫码添加小享, 回复“ 开集目标检测

免费获取 全部论文+开源代码

Grounding DINO 1.5: Advance the" Edge" of Open-Set Object Detection

方法: 本文介绍了由IDEA研究开发的强大实用的开放集合目标检测模型Grounding DINO1.5。该模型包含Pro和Edge两个版本。Pro版提升了模型容量和训练数据集,Edge版针对边缘设备优化了检测速度。实验显示,它们在多个检测基准上达到了新性能记录。

创新点:

  • Grounding DINO1.5 Pro在特征提取阶段采用了深度早期融合策略,该策略在解码阶段之前结合了语言和图像特征之间的交叉注意力机制。
  • Grounding DINO1.5 Pro扩展了其处理长标题的能力,允许对视觉内容进行更全面的描述。
  • Grounding DINO1.5 Pro展示了强大的泛化能力,能够检测出训练数据中未出现的术语,显示出其将文本短语与视觉元素相关联的出色能力。

Open-Set Object Detection By Aligning Known Class Representations

方法: 论文提出了一种新的OSOD框架,通过语义聚类和类装饰模块有效地对齐类别表示,准确检测未知对象,并采用熵阈值评估技术和谐平均精度指标来降低未知对象的误分类风险,通过大量实验证明了该方法的显著改进。

创新点:

  • 引入了一个新的语义聚类模块,用于对齐区域建议特征和语义类别嵌入,防止未知类别的错误分类。
  • 引入了一个新的类别去相关模块,通过特征去相关的softmax正交性约束,增加了类别间的聚类距离,改善了未知类别的分离。

扫码添加小享, 回复“ 开集目标检测

免费获取 全部论文+开源代码

Towards Evidential and Class Separable Open Set Object Detection

方法: 本文提出了一种用于挑战性开放集目标检测任务的证据目标检测器(EOD)。该方法利用证据深度学习理论来近似分类分布参数的贝叶斯先验,并利用特定任务的定制框架来提高实际性能。

创新点:

  • 提出了一种基于证据的对象检测器方法,利用证据深度学习理论来近似分类分布参数的贝叶斯先验,通过任务特定的自定义框架来提高实际性能。
  • 引入了证据理论和对比学习模块,定义了EOD的损失函数,通过模型的对比学习和证据获取来提高类别分离性能。
  • 设计了混合证据损失函数,通过建模背景不确定性来进一步提高未知对象的发现能力。

OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery

方法: 论文介绍了一种新的开放集目标检测和发现(OSODD)任务,并提出了一种OSR-ViT框架来解决这个任务。该任务要求模型能够准确检测和标识所有感兴趣的目标,包括已知类别(ID)和未知类别(OOD)的目标。







请到「今天看啥」查看全文