专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
中国人民银行  ·  习近平对四川宜宾市筠连县山体滑坡作出重要指示 ·  4 小时前  
进出口银行  ·  进出口银行行领导开展节后走访慰问 ·  15 小时前  
进出口银行  ·  习近平同巴基斯坦总统扎尔达里会谈 ·  2 天前  
进出口银行  ·  坚定信心 深化改革 ... ·  3 天前  
中国人民银行  ·  2025年春节假期银联、网联共处理支付交易2 ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

暴虐YOLO11和D-FINE!AILab开源DEIM:超越全部实时目标检测!

3D视觉工坊  · 公众号  ·  · 2024-12-08 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:DEIM: DETR with Improved Matching for Fast Convergence

作者:Shihua Huang, Zhichao Lu, Xiaodong Cun, Yongjun Yu, Xiao Zhou, Xi Shen

机构:Intellindust AI Lab、City University of Hong Kong、Great Bay University、Hefei Normal University

原文链接:https://arxiv.org/abs/2412.04234

代码链接:https://github.com/ShihuaHuang95/DEIM

1. 导读

我们介绍了DEIM,这是一个创新和高效的训练框架,旨在通过基于变压器的架构(DETR)加速实时对象检测的收敛。为了缓解DETR模式中一对一(O2O)匹配所固有的稀疏监管,DEIM采用了密集O2O匹配策略。这种方法通过使用标准的数据扩充技术合并额外的目标来增加每幅图像的阳性样本的数量。虽然密集的O2O匹配加快了收敛,但它也引入了大量可能影响性能的低质量匹配。为了解决这个问题,我们提出了匹配感知损失(MAL),这是一种新的损失函数,可以优化各种质量水平的匹配,提高密集O2O的效率。在COCO数据集上的大量实验验证了DEIM的有效性。当与RT-DETR和D-FINE集成时,它可以持续提升性能,同时将培训时间减少50%。值得注意的是,配合RT-DETRv2,DEIM在NVIDIA 4090 GPU上的一天训练中实现了53.2%的AP。此外,DEIM训练的实时模型优于领先的实时物体检测器,DEIM-D-FINE-L和DEIM-D-FINE-X在英伟达T4 GPU上以124和78 FPS分别实现了54.7%和56.5%的AP,而不需要额外的数据。我们相信DEIM为实时物体检测的进步树立了一个新的基准。

2. 引言

目标检测是计算机视觉中的一项基础任务,广泛应用于自动驾驶、机器人导航等领域。对高效检测器的需求日益增长,推动了实时检测方法的发展。特别是,YOLO凭借其延迟与准确性之间的出色权衡,已成为实时目标检测的主要范式之一。YOLO模型被广泛认为是基于卷积神经网络的单阶段检测器。YOLO系列中广泛使用了“一对多”(O2M)分配策略,即每个目标框与多个锚框相关联。该策略因其提供了密集的监督信号,能够加速收敛并提升性能[44],而被认为是有效的。然而,它会产生每个对象多个重叠的边界框,需要手工设计的非极大值抑制(NMS)来去除冗余,从而引入了延迟和不稳定性。

基于Transformer的检测(DETR)范式[3]的出现引起了广泛关注,它利用多头注意力机制捕获全局上下文,从而增强了定位和分类能力。DETR采用“一对一”(O2O)匹配策略,利用匈牙利算法在训练期间建立预测框与真实对象之间的唯一对应关系,从而消除了对NMS的需求。这一端到端框架为实时目标检测提供了一种有吸引力的替代方案。

然而,收敛速度慢仍是DETR的主要限制之一,我们假设其原因有两方面。❶ 监督稀疏:O2O匹配机制只为每个目标分配一个正样本,极大地限制了正样本的数量。相比之下,O2M能生成数倍多的正样本。正样本的稀缺限制了密集监督,阻碍了模型的有效学习,尤其是对于小对象而言,密集监督对性能至关重要。❷ 匹配质量低:不同于依赖密集锚框(通常>8000个)的传统方法,DETR使用少量(100或300个)随机初始化的查询。这些查询与目标缺乏空间对齐,导致训练中出现大量低质量匹配,即匹配框与目标框的交并比(IoU)低但置信度高。

为解决DETR中的监督稀缺问题,近期研究通过将O2M分配融入O2O训练,从而为每个目标引入辅助正样本以增加监督,放宽了O2O匹配的约束。Group DETR通过使用多个具有独立O2O匹配的查询组来实现这一点,而Co-DETR则结合了来自Faster R-CNN和FCOS等目标检测器的O2M方法。尽管这些方法成功增加了正样本的数量,但它们也需要额外的解码器,从而增加了计算开销,并存在生成与传统检测器类似的冗余高质量预测的风险。

相比之下,我们提出了一种新颖且直接的方法,即密集一对一(Dense O2O)匹配。我们的核心思想是通过增加每张训练图像中的目标数量,从而在训练期间生成更多的正样本。值得注意的是,这可以通过使用诸如马赛克和混合增强等经典技术轻松实现,这些技术能够在保持一对一匹配框架的同时,为每张图像生成额外的正样本。Dense O2O匹配可以在不增加O2M方法通常伴随的复杂性和开销的情况下,提供与O2M方法相当的监督水平。

尽管有尝试使用先验来改善查询初始化,从而在对象周围实现更有效的查询分布。但这些改进的初始化方法通常依赖于从编码器中提取的有限特征信息,倾向于将查询聚集在少数显著对象周围。相比之下,大多数非显著对象附近缺乏查询,导致匹配质量低。在使用Dense O2O时,这一问题变得更加突出。随着目标数量的增加,显著目标与非显著目标之间的差异增大,尽管匹配数量总体增加,但低质量匹配的数量也随之增加。在这种情况下,如果损失函数在处理这些低质量匹配方面存在局限性,这种差异将持续存在,阻碍模型实现更好的性能。

DETR中现有的损失函数,如Varifocal Loss(VFL),是针对密集锚框设计的,其中低质量匹配的数量相对较低。它们主要惩罚高质量匹配,尤其是具有高IoU但低置信度的匹配,并丢弃低质量匹配。为解决低质量匹配问题并进一步提升Dense O2O,我们提出了匹配感知损失(MAL)。MAL通过结合匹配查询与目标之间的IoU和分类置信度,根据匹配性调整惩罚。MAL对高质量匹配的处理方式与VFL相似,但对低质量匹配给予了更大关注,提高了训练期间有限正样本的利用率。此外,MAL提供了比VFL更简单的数学公式。 推荐课程: 面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

提出的DEIM结合了Dense O2O和MAL,构建了一个有效的训练框架。我们在COCO数据集上进行了大量实验,以评估DEIM的有效性。DEIM显著加速了RTDETRv2和D-FINE的收敛,并实现了性能提升。具体而言,在训练轮次减半的情况下,我们的方法分别比RT-DETRv2和D-FINE高出0.2和0.6个AP(平均精度)。此外,我们的方法能够在单个4090 GPU上训练基于ResNet50的DETR模型,在一天内(约24轮次)达到53.2%的mAP(平均精度均值)。通过结合更高效的模型,我们还引入了一系列新的实时检测器,其性能优于现有模型,包括最新的YOLOv1,为实时目标检测设立了新的最优水平(SoTA)。

3. 效果展示

与COCO上最先进的实时物体探测器的比较。与最先进的实时对象检测器相比,所提出的DEIM在平均精度(AP)和延迟(b)方面实现了更快的收敛(a)和更好的性能。

我们提议的DEIM的插图。黄色、红色和绿色方框分别代表GT、阳性和阴性样品。“位置”表示阳性样本。上图:我们的密集O2O(图2c)可以提供与O2M(图2a)相同质量的阳性样本。下图:对于低质量匹配,使用VFL和MAL时的损失值由⋆标记,表明MAL可以更有效地优化那些情况。

4. 主要贡献

本文的主要贡献总结如下:

• 我们提出了DEIM,这是一个简单且灵活的实时目标检测训练框架。

• DEIM通过分别使用Dense O2O和MAL提高匹配的数量和质量,从而加速了收敛。

• 使用我们的方法,现有的实时DETR在减半训练成本的同时实现了更好的性能。特别是,在与D-FINE中的高效模型配对后,我们的方法超越了YOLO,在实时目标检测中建立了新的最优水平。

5. 实验结果

我们将所提方法融入D-FINE-L和D-FINEX中,构建了DEIM-D-FINE-L和DEIM-D-FINEX。随后,我们评估了这些模型,并将其实时目标检测性能与包括YOLOv8、YOLOv9、YOLOv10、YOLOv11以及基于DETR的模型(如RT-DETRv2和D-FINE)在内的最先进模型进行了基准测试。表1从训练周期、参数数量、GFLOPs(十亿次浮点运算)、延迟和检测精度等方面对模型进行了比较。

我们的方法在训练成本、推理延迟和检测精度方面均优于当前最先进的模型,为实时目标检测设定了新的基准。值得注意的是,D-FINE是一项非常新的工作,它通过结合蒸馏和边界框细化提升了RT-DETRv2的性能,成为领先的实时检测器。我们的DEIM进一步提升了D-FINE的性能,实现了0.7 AP(平均精度)的提升,同时降低了30%的训练成本,且未增加推理延迟。在小型目标检测方面观察到了最显著的改进,当使用我们的方法训练时,D-FINE-X作为DEIM-D-FINE-X实现了1.5 AP的提升。与YOLOv11-X直接相比,我们的方法优于这一最先进的YOLO模型,实现了略高的性能(54.7 vs. 54.1 AP)并减少了20%的推理时间(8.07 ms vs. 10.74 ms)。尽管YOLOv10采用了混合的O2M(One-to-Many)和O2O(One-to-One)分配策略,但我们的模型始终优于YOLOv10,证明了我们的Dense O2O策略的有效性。尽管与其他基于DETR的模型相比,我们在小型目标检测方面取得了显著改进,但与YOLO模型相比,我们的方法在小型目标AP方面略有下降。例如,YOLOv9-E在小型目标上比D-FINE-L高出约1.4 AP,尽管我们的模型实现了更高的总体AP(56.5 vs. 55.6)。这一差距凸显了在DETR架构中进行小型目标检测的持续挑战,并指出了进一步改进的潜在领域。

大多数DETR研究使用ResNet作为主干网络,为了对现有DETR变体进行全面比较,我们也将我们的方法应用于最先进的DETR变体RT-DETRv2。结果总结在表2中。与需要500个训练周期进行有效训练的原始DETR不同,包括我们的方法在内的最新DETR变体减少了训练时间,同时提高了模型性能。我们的方法显示出最显著的改进,在仅36个训练周期后就超越了所有变体。具体而言,DEIM将训练时间减半,并在使用ResNet-50和ResNet-101主干网络的RT-DETRv2上分别将AP提高了0.5和0.9。此外,与DINO-Deformable-DETR [39]相比,在使用ResNet-50 [14]主干网络时,DEIM的AP高出2.7。DEIM还显著增强了小型目标的检测。例如,虽然我们的DEIM-RT-DETRv2-R50在总体AP上与RT-DETRv2相当,但在小型目标上比RT-DETRv2高出1.3 AP。在使用更大的ResNet-101主干网络时,这种改进更为显著,我们的DEIM-RT-DETRv2-R101在小型目标上比RT-DETRv2-R101高出2.1 AP。将训练扩展到72个训练周期进一步提高了总体性能,尤其是使用ResNet-50主干网络时,这表明较小的模型从额外的训练中获益。

CrowdHuman是一个旨在评估密集人群场景中目标检测器的基准数据集。我们按照官方存储库中提供的配置,将D-FINE和我们提出的方法应用于CrowdHuman数据集。如表3所示,我们的方法(通过DEIM增强的D-FINE-L)在D-FINE-L的基础上实现了1.5 AP的显著改进。特别是,我们的方法在小型目标(APs)和高质量检测(AP75)方面实现了显著的性能提升(超过3%的改进),证明了其在挑战性场景中更准确地检测目标的能力。此外,该实验还强调了我们的方法在不同数据集上的强大泛化能力,进一步证实了其鲁棒性。

6. 总结 & 未来工作

在本文中,我们提出了DEIM,这是一种通过改进匹配来加速基于DETR的实时目标检测器收敛的方法。DEIM结合了Dense O2O匹配(增加了每张图像中的正样本数量)和MAL(一种旨在优化不同质量匹配并特别增强低质量匹配的新型损失)。这种组合显著提高了训练效率,使DEIM能够在比YOLOv11等模型更少的训练周期内实现更优的性能。与RT-DETR和D-FINE等最先进的DETR模型相比,DEIM在检测精度和训练速度方面表现出明显的优势,同时不会牺牲推理延迟。这些特性使DEIM成为实时应用的高度有效解决方案,并有可能在其他高性能检测任务中进一步改进和应用。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文