遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

小白学视觉 · 公众号 · · 2024-10-29 10:05

正文

点击上方




    
“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

论文信息

题目：AODet: Aerial Object Detection Using Transformers for Foreground Regions

AODet: 基于 Transformers 的前景区域航空目标检测

作者：Xiaoming Wang , Hao Chen , Xiangxiang Chu , and Peng Wang

论文创新点

作者提出了AODet，这是一个简单而准确的目标检测器，专门用于使用变换器进行航空目标检测。AODet首先识别背景区域，然后仅在最有可能包含前景对象的区域上操作，显著减少了背景区域上的冗余计算。通过利用基于变换器的架构的力量，AODet可以利用更多的前景区域之间的上下文信息，帮助保留高质量的检测结果。
与以前的方法不同，AODet不涉及稀疏操作，如稀疏卷积或聚类算法/RoI操作。这些使我们的方法更简单，可以很容易地用主流深度学习框架中现成的简单张量操作来实现。

摘要

航空目标检测是一项重要任务，近年来受到了广泛关注。航空图像通常描绘了简单背景中的小而稀疏的实例。尽管如此，简单的背景只能提供有限的信息。基于此观察，我们提出了一种新的基于变换器的框架用于航空目标检测。与以往通过多阶段流程解决稀疏性问题的方法不同，我们的方法，称为AODet，具有两个显著优势：1) AODet是一个简单而准确的目标检测器，专门用于航空目标检测。AODet首先识别背景区域，然后仅在最有可能包含前景对象的区域上运行，从而显著减少了冗余计算。利用变换器可以利用更多的前景区域之间的上下文信息，帮助保持高质量的检测结果；2) 与涉及稀疏操作（如稀疏卷积或聚类算法/RoI操作）的方法不同，AODet采用变换器从前景提议中检测对象。我们的方法更简单，可以很容易地用简单的张量操作实现。在VisDrone和DOTA上进行了广泛的实验。AODet在VisDrone上达到了40.9 AP，在DOTA上达到了79.6 mAP，证明了AODet的有效性。

III. 我们的方法

传统的目标检测器，如FCOS，通常在整幅特征映射/输入图像上执行密集卷积，为图像的所有区域分配相等的计算预算。如上所述，对于航空图像，这种简单策略并不经济，因为图像的大部分是简单的背景（例如，天空）可以提前丢弃。在这里，我们设计了一个框架，可以利用这一重要观察。我们方法的网络架构如图2所示。输入图像首先被送入主干和FPN以提取多级特征映射。前景提议网络从多级特征映射的背景区域中区分出前景区域。然后，变换器检测头部应用所选的前景区域并预测最终对象实例的类别和边界框。

A. 主干和FPN

输入图像首先通过主干网络（例如，ResNet[32]），然后是FPN[12]。FPN的输出是多个级别的特征映射，分辨率不同，由从高到低分辨率分别表示。

B. 前景提议网络

前景提议网络的目标是预测对象更可能出现的区域。如图3所示，前景提议网络由分类分支和回归分支组成。每个分支包含一个卷积层（具有256个输出通道）和ReLU以及组归一化[33]。这些组件被特意设计为轻量级，以节省计算开销。在FPN之后，它们分别产生和，其中。这些特征被连接成，然后通过概率图被选为前景提议特征。概率图是通过具有sigmoid层的卷积层在中计算的，表示为前景类别之一的概率。选定的前景提议特征如下确定。对于在位置处的层特征向量，表示为，我们在概率图上的相应位置获得分数向量，它应该是一个维向量。因为有前景对象，相应的特征向量然后被发送到下一个阶段。我们使用分数向量中的最大分数作为位置处特征向量的对象性分数。之后，我们从所有层中选择个具有最大分数的特征向量，其中，作为选择性前景提议特征。为了更好地整合分类和回归特征，应用了具有LayerNorm的线性层以获得最终的提议特征。这些最终的提议特征构成了变换器检测头部将作为输入的特征包。

辅助回归损失：此外，如图3所示，与局部分类损失并行，我们还在训练中加入了附加到特征映射的辅助回归损失。辅助回归损失需要额外的Conv-ReLU操作，其输出通道为4，描述边界框作为FCOS。在我们的实验中，这种辅助回归损失仅在训练期间使用，我们观察到它可以帮助优化并在推理中提高性能。
动态标签分配：前景提议网络的目标是为后续的变换器检测头部选择顶部个前景提议。因此，至关重要的是，这些个提议涵盖了尽可能多的单独实例，而不是由同一实例的多个提议主导。为了实现这一目标，我们在训练期间的标签分配中施加了约束，限制了每个实例的最大正面提议数量。这确保了选定的个提议可以涵盖更广泛的实例范围。具体来说，我们首先像FCOS一样确定标签。随后，对于每个实例，我们选择个具有最小分类和回归损失的位置作为正样本，而其他位置设置为负样本。与在这里使用固定的不同，我们遵循[34]，通过计算真实边界框和预测框之间的最大（我们在实验中设置）交集比（IoU）来动态估计。有关详细信息，请参考[34]。
前景提议网络与RPN的区别：首先，请注意，前景提议网络的回归分支是可选的。虽然这个辅助回归分支可以在训练期间帮助优化并在推理中提高性能，但其缺失并不会影响我们的整体框架。然而，RPN的回归分支是必需的。RPN需要预测边界框（即，提议）以进行后续操作，如RoIPooling[9]或RoIAlign[14]。其次，前景提议网络利用动态标签分配，以涵盖尽可能多的单独实例，而不是包含来自同一实例的许多提议。RPN遵循传统的标签分配，没有这样的专门设计考虑。

C. 变换器检测头部

在变换器检测头部中，个特征向量首先添加了两种位置编码。首先，如，我们使用2-D位置编码来编码这些特征向量在原始2-D特征图上的空间位置。其次，我们引入可学习的位置编码来表示这些特征向量所属的FPN层。随后，这些特征向量被聚合成一个矩阵，并发送到变换器检测头部。变换器检测头部由个堆叠的自注意力和全连接层组成，具有个通道。如，我们还使用多头注意力，允许模型在输入中关注不同的特征向量。头的数量设置为。

变换器的输出仍然是一个矩阵，其维度为。我们使用三个线性层将矩阵映射到最终预测，包括一个分类分支来获得用于分类的分数向量，其维度为类别数量，一个4-D向量表示边界框的坐标