专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

TNNLS'25｜东北大学贾同教授团队提出SOTA模型AO-DETR，解决X-ray图像违禁品检测领域难题！

极市平台 · 公众号 · · 2025-01-25 22:00

正文

↑ 点击蓝字关注极市平台

作者丨粉丝投稿

编辑丨极市平台

极市导读

东北大学贾同团队提出了一种名为AO-DETR的模型，专门针对X-ray图像中违禁品检测的重叠问题进行优化。该模型通过Category-Specific One-to-One Assignment策略和Look Forward Densely 方法，分别解决了前景背景特征耦合和边缘模糊的问题，显著提升了检测精度和稳定性，并在PIXray等数据集上取得了 SOTA性能。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

arxiv链接： https://arxiv.org/abs/2403.04309

正式版本链接： https://ieeexplore.ieee.org/document/10746383

开源代码链接： https://github.com/Limingyuan001/AO-DETR-test

参考博客： https://zhuanlan.zhihu.com/p/5403273899

AO-DETR（Anti-Overlapping DETR）模型是一种基于DINO改进的针对X-ray违禁品图像重叠问题的模型。重叠现象带来了两大问题，分别是前景背景特征的耦合以及违禁品边缘模糊。针对这两个问题，这篇论文提出了针对性的解决方法。

一、模型整体介绍

AO-DETR（Anti-Overlapping DETR）模型是一种基于DINO改进的模型。该模型的Backbone、Encoder、Decoder和CDN模块与DINO相同，同时也使用多尺度特征。

该论文的主要创新点如下：

首先在解码器之前（Pre-decoder）添加Category-Specific Oneto-One Assignment (CSA)策略来束缚object queries预测固定类别的违禁品：将从CSM获得的特定于类别的reference boxes与其相应的特定于类别的object queries进行匹配，然后将它们输入到解码器模块进行预测。此处的匹配方法采用了k个类别特定的匈牙利匹配机制来对预测结果和真值进行一对一匹配。该过程用于增强object queries类别的语义稳定度，进而提升模型对重叠的前景背景特征中提取特定类别违禁品特征的能力。

其次在解码器部分，基于DINO解码器中使用的Look Forward Twice (LFT)的方法，该论文进一步提出Look Forward Densely（LFD）方法。针对x-ray图像重叠现象带来的边缘模糊问题，LFD利用当前层预测的偏差对当前层的和更低层的参考框进行修正，压榨低层准确率来提升高层定位准确率。

二、针对问题解决：

1、X-ray图像的重叠现象带来的前景背景特征耦合——CSA策略

CSA策略来限制object queries预测固定类别的违禁品，进而提升其对重叠的前景背景特征中提取特定类别违禁品特征的能力。

CSA策略是将object queries进行分组，使每组queries只能匹配到特定类别的真值标签，这样训练过程中object queries的功能被特异化，专精于从重叠特征中解耦出前景物体信息并进行分类和定位。

具体实现步骤：

①随机初始化一个特定类别的 object queries 库，表示为集合 CQ ，每一个特定类别的 object queries 。对于第 k 个类别，定义了特定类别的 object queries group ，它包含个相同的。由于位置编码的存在和不同真值的分配，第 k 个 object queries group 内的每个 object query ， i 在训练阶段逐渐发散。具体而言，在训练过程中同一类别内的 object query 会变得相似，而来自不同类别的 object query 变得不同。该过程是为了将 object queries的功能在训练过程中被类别特异化做准备。

②CSM：保持reference boxes和queries的类别一致有助于网络从重叠的背景中提取相关的前景特征，可以增强模型特征提取的抗重叠能力。为了提高queries类别和reference boxes类别之间的一致性。论文提出了一种特定于类别的选择机制Category-Specific Select Mechanism (CSM)，该机制提供对应于每个特定类别的object queries group的reference boxes，从而解决了上述类别不一致的问题，具体过程如公式1所示。给定编码器最后一层预测的所有结果 P，类别的数量 k 以及所有类别所需的参考框的数量 N ，该算法可以筛选出每个类别具有最高置信度的前个预测，表示为。该过程可以表示如下：

其中表示所有类别特定的预测结果，包括类别特定的参考框和类别特定的分类分数

③Reference boxes 和 object queries 匹配：在解码之前，为了对齐 reference boxes 和 object queries 的类别，该论文利用 CSM 选择的 reference boxes 和具有相同类别 k 的 object queries group 之间进行一对一匹配。这样可以得到第 i 对 object queries 和 reference boxes 表示匹配对索引。这种匹配关系确保负责类别 k 物体的 object queries 在整个训练过程中始终稳定地指导负责类别 k 物体的 reference boxes 的预测过程。

为了获得l-th层的类别k中的第i对object queries和reference boxes，即 ,该解码器层的解码过程表示如下：

④Category－Specific Hungarian Matching：为了在类别中有效地建立 ground truth G 和第 1 个解码器层的预测结果之间的一对一对应关系，我们计算类别特定的匹配代价矩阵。这里，和分别表示类别k的预测结果和真值的数量。然后，我们利用匈牙利算法对每个类别进行二分图匹配，过程可以表示如下：

此时，CSA策略在每个类别k中的reference boxes、classification scores、object queries和ground truth之间建立配对。

2、X-ray图像重叠现象导致的边缘不清晰——LFD 方法

LFD 方法，通过提升中高level的decoder层的reference boxes的定位准确程度来提升最终层对于模糊边缘的定位能力。

对比Deformable DETR中的解码器对于定位任务使用的Look Forward Once (LFO)方案，和DINO的解码器中使用的Look Forward Twice (LFT)方案，LFD方案更加倾向于牺牲前一层的定位结果改善当前层的定位结果。

相较于LFO而言，在LFT策略下，当前层的定位结果受到一个较高层的负面影响，同时受到一个较低层的正面影响。从整体上看，最底层只受到负面影响，而最高层只受到正面引导，中间层同时受到积极和消极的影响。由于来自较高层的偏移通常较小，对于特定一层，来自较高层的负引导倾向于弱于来自当前层的正引导。结果，低层受损，中层略微受益，高层收益显著。

而针对X-ray图像重叠现象导致的边缘不清晰的问题，为了使图像物体边缘精确回归，论文提出了LFD方法：使当前层预测的偏移参与所有较低层的参考框的预测。对比LFT方法，最低层受到其他所有层的负面影响，最高层受到其他所有层的正面引导。中间层比LFT获得更多的好处。其结果是，与LFT相比，下层受损更大，中层受益更大，上层收益更大。这使得最终层的定位更加精确，有效地抵消了由边缘模糊引起的不准确性，使边缘精确回归。

论文中还进一步探索了几何缩放来自不同层的偏移的影响，通过以成比例的方式放大或缩小来自不同层的偏移，代码中可以找到对应文件。

3、提出评估模型标签分配稳定程度的评价指标

为了深入理解Deformable DETR系列模型中object queries的作用机理，文章设计了一个全新的标签分配稳定度的评价指标。

匈牙利匹配算法利用代价矩阵的全局最优解进行标签分配。但是，在训练期间，由于模型参数更新，每个epoch下相同图像的代价矩阵并不一致，因此同一个object query可能在不同epoch被分配给不同的真值物体。这种可变性导致了object queries标签分配的不稳定性，为了定量评估前景标签分配的不稳定性，文章设计了一个名为前景不稳定性分数（FIS）的度量：

FCS和FOS分别是前景类别不稳定和前景个体不稳定的个数。

对于一个训练图像，模型的解码器预测物体，其中表示预测物体的数量，真实物体表示为，其中表示真实物体的数量。

在标签分配之后，计算索引向量以存储 epoch j 的的个 object queries 预测的结果匹配到的个体索引。如下所示：

类似地，计算索引向量以存储 epoch j 的个object queries预测的结果匹配到的类别索引。如下所示：

将训练的epoch j的前景类别不稳定性表示为和