专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

超越YOLO、DETR！最强新生代目标检测器！

计算机视觉研究院 · 公众号 · · 2024-09-19 10:10

正文

清华大学、IDEA研究院联合提出的Grounding DINO，采用了目标检测器DINO的Transformer架构，并借鉴了多模态GLIP的预训练方法，深度融合语言和视觉信息后， 可根据文字描述检测任意目标，实现了开集检测性能的重大突破，不仅被ECCV'24成功收录，相关改进也层出不穷，甚至能结合扩散模型完成修图， 正在超越DETR、YOLOs等检测系列，成为视觉或多模态极具前景的研究方向！

为了帮助大家掌握热门的 Grounding DINO ，研梦非凡于 9月25日晚（周三） ，邀请了 CV资深算法工程师张导师 ，独家讲解 ECCV'24创新工作 《Grounding DINO：最强开集目标检测器！》 （AI前沿直播课NO.70）， 从开集与闭集目标检测的关系，到 Grounding DINO的研究背景、主要贡献， 重点讲解模型结构、训练方法和实验，并详解代码和Demo演示， 1节课速通最先进的开集目标检测器，get论文改进和求职面试知识点！

👇🏻 扫描二维码找助教 0元预约 直播课！

凡预约即可免费领取 20 0 篇 目标检测精选论文&代码（开集目标检测/YOLO系列/顶会收录等）

unset unset 9.25直播课内容概览 unset unset

01 Grounding DINO基本信息

ECCV2024收录论文、开源代码
Grounding DINO 1.5等版本更新

02 开集与闭集目标检测器的关系

闭集目标检测器：只能检测预先定义的类别对象
开集目标检测器：可以检测指定的任意对象，在闭集检测器中引入语言特征

03 Grounding DINO的特点

以DINO为基础，基于Transformer的检测器
Transformer架构的优势分析
无需使用NMS等模块，支持端到端训练
提出了图像-语言特征深度融合的方案
零样本基准测试中刷新记录

👇🏻 扫描二维码找助教 0元预约 直播课！

凡预约即可免费领取 20 0 篇 目标检测精选论文 &代码 （开集目标检测/YOLO系列/顶会收录等）

04 Grounding-DINO的总体结构（重点）

双编码器-单解码器架构

组成部分
具体原理

特征增强模块

多个特征增强器层
可变形自注意力模块
GLIP启发下图像-文本的交叉注意模块

语言引导的查询选择
跨模态解码器

跨模态查询的传递
与DINO解码器层相比，额外的文本跨注意层

子句级文本特征

句子级表示与词级表示的局限性
子句级表示的创新

05 训练方法和实验

损失函数

回归损失、分类损失

训练变体
完成任务

任务1：COCO数据集闭集目标检测
任务2：零样本迁移
任务3：在RefCOCO数据集上进行指代对象检测

可视化检测结果
将Grounding DINO和Stable Diffusion应用于图像编辑

06 代码&Demo演示（重点）

直播课导师介绍

张导师

某上市公司高级算法工程师，在自动驾驶感知等视觉领域，拥有5年以上工作经验， 尤其是目标检测、目标跟踪、图像分割，以及点云、多模态、模型轻量化和部署方向，一线项目经历丰富，具备高水平的 P ython、P ytorch等开发能力。

👇🏻 扫描二维码找助教 0元预约 直播课！

凡预约即可免费领取 20 0 篇 目标检测精选论文 &代码 （开集目标检测/YOLO系列/顶会收录等）

超越YOLO、DETR！最强新生代目标检测器！

正文

unset unset 9.25直播课内容概览 unset unset

01 Grounding DINO基本信息

02 开集与闭集目标检测器的关系

03 Grounding DINO的特点

04 Grounding-DINO的总体结构（重点）

05 训练方法和实验

06 代码&Demo演示（重点）

直播课导师介绍

unset unset 研梦非凡科研论文指导 unset unset

请到「今天看啥」查看全文