论文题目:D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement
论文地址:https://arxiv.org/pdf/2410.13842
代码:https://github.com/Peterande/D-FINE
创新点
传统的边界框回归方法通常将边界框的边缘视为精确的固定值(使用狄拉克δ分布),这使得模型难以建模定位的不确定性,并且优化过程对小的坐标变化非常敏感,导致收敛速度慢且性能欠佳。本文提出了Fine-grained Distribution Refinement (FDR),将边界框回归从预测固定坐标转变为迭代优化概率分布。通过这种方式,模型能够以更细粒度的中间表示来建模每个边缘的不确定性,并允许对边界框的每个边缘进行独立的调整,从而显著提高定位精度。
为了进一步提升模型性能,本文引入了Global Optimal Localization Self-Distillation (GO-LSD)。该方法通过自蒸馏的方式,将深层层(更准确的预测)的定位知识传递到浅层层,而无需额外的训练成本。
为了在保持高性能的同时提高实时性,本文对现有的实时DETR架构(如RT-DETR)进行了轻量级优化。通过优化计算密集型模块和操作,D-FINE在速度和精度之间取得了更好的平衡。
方法
D-FINE的主要研究方法是通过重新定义DETR模型中的边界框回归任务,引入细粒度分布优化(Fine-grained Distribution Refinement, FDR)和全局最优定位自蒸馏(Global Optimal Localization Self-Distillation, GO-LSD)来提升目标检测的精度和效率。具体来说,FDR将边界框回归从预测固定坐标转变为迭代优化概率分布,通过在解码器的每一层逐步细化边界框的概率分布,允许模型独立调整每个边缘的不确定性,并利用非均匀加权函数实现更精确的定位调整。同时,GO-LSD通过自蒸馏的方式将深层层的定位知识传递到浅层层,使得浅层层能够学习到更准确的预测,从而加速模型的收敛并提升整体性能。
细粒度分布优化(FDR)流程
本图展示了初始边界框的预测过程。第一解码层通过传统的边界框回归头和D-FINE头(两者都是MLP,但输出维度不同)预测初步的边界框和初步的概率分布。每个边界框与四个概率分布相关,分别对应边界框的四个边缘(左、上、右、下)。这些分布用于建模每个边缘的不确定性,为后续的优化提供基础。随后的解码层通过残差方式逐步优化这些概率分布。具体来说,每一层都会根据前一层的分布预测残差,并更新分布。这种迭代优化方式允许模型在每一层中对边界框的每个边缘进行独立且渐进的调整,从而逐步提高定位精度。
全局最优定位自蒸馏(GO-LSD)流程
本图展示了D-FINE模型中
全局最优定位自蒸馏(Global Optimal Localization Self-Distillation, GO-LSD)
的详细流程。GO-LSD的核心思想是将深层网络中更准确的定位知识通过自蒸馏的方式传递到浅层网络中,从而提升整个模型的定位精度和收敛速度。
实验结果
本表格提供了D-FINE与其他多种实时目标检测器在COCO val2017数据集上的全面性能对比。该表格综合展示了各模型在参数量、计算成本(GFLOPs)、延迟以及不同精度指标(AP)方面的表现。D-FINE在这些关键指标上均展现出显著优势,其D-FINE-L和D-FINE-X模型不仅在平均精度(AP)上分别达到54.0%和55.8%,而且在保持高精度的同时,分别实现了8.07 ms和12.89 ms的低延迟,计算成本也控制在91 GFLOPs和202 GFLOPs。
-- END --
关注“
学姐带你玩AI
”公众号,
回复“
目标创新点
”
领取目标检测高区idea+代码合集