专栏名称: 江大白

专业有趣的AI内容平台，关注后回复【算法】，获取45家大厂的《人工智能算法岗江湖武林秘籍》

高分辨目标检测创新，跨切片 NMS，视觉Transformer革命！

江大白 · 公众号 · · 2025-03-01 08:00

正文

以下文章来源于微信公众号：集智书童

作者：小书童

链接：https://mp.weixin.qq.com/s/5egzO0eupRKeK0VgSqSV6g

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

本文作者提出了一种新颖的模型无关Sparse视觉Transformer，称为SparseFormer，以弥合近距离和HRW拍摄之间的目标检测差距。所提出的SparseFormer选择性地使用注意力 Token 来仔细检查可能包含目标的Sparse分布窗口。通过这种方式，它可以通过融合粗粒度和细粒度特征来共同探索全局和局部注意力，以处理巨大的尺度变化。

前言

近年来，使用像素级图像和视频捕捉系统以及具有高分辨率宽视角（HRW）的基准测试越来越多。然而，与MS COCO数据集中的近距离拍摄不同，更高的分辨率和更宽的视野带来了独特的挑战，如极端 Sparse 性和巨大的尺度变化，导致现有的近距离检测器不准确且效率低下。

在本文中，作者提出了一种新颖的模型无关Sparse视觉Transformer，称为SparseFormer，以弥合近距离和HRW拍摄之间的目标检测差距。所提出的SparseFormer选择性地使用注意力 Token 来仔细检查可能包含目标的Sparse分布窗口。通过这种方式，它可以通过融合粗粒度和细粒度特征来共同探索全局和局部注意力，以处理巨大的尺度变化。SparseFormer还受益于一种新颖的跨切片非极大值抑制（C-NMS）算法，以精确地定位噪声窗口中的目标，以及一种简单而有效的多尺度策略来提高准确性。

在两个HRW基准测试PANDA和DOTA-v1.0上进行的广泛实验表明，所提出的SparseFormer在检测精度（高达5.8%）和速度（高达3倍）方面显著优于现有方法。

1 引言

目标检测在过去十年中一直是计算机视觉领域的一项具有挑战性但基础的任务。如MS COCO[28]等近距离场景已经展现出令人印象深刻的性能，并在实际应用中取得了成功。然而，随着成像系统的发展和无人机等新应用需求的出现，检测具有平方公里场景和吉比特级分辨率的超高分辨率宽幅（HRW）图像中的目标引起了越来越多的关注。

在HRW照片中使用近距离检测器检测物体并不有效，这是因为HRW照片具有一些独特的特性，如PANDA 和DOTA 所发现，与MS COCO等近距离照片相比。最显著的挑战是HRW照片中的信息Sparse，物体通常只占据图像的不到5%。这使得检测器难以从背景噪声中提取关键特征，导致在训练和测试过程中背景中出现误报，物体区域中出现漏检。第二个挑战是HRW照片中物体的尺度变化，变化幅度可达100倍。依赖于感受野和 Anchor 点固定设置的检测器无法适应这些极端尺度，如图1所示。例如，YOLOv8 在检测小物体方面表现不佳。虽然DINO 有所改进，但它仍然难以适应这种夸张的尺度变化，导致对大物体的检测效果不佳（图2）。此外，典型的两阶段下采样方案 [5, 10, 21, 34] 未能检测到更多的小物体。

切片策略[1]在使用 NMS 合并预测框时可能导致框不完整，如图5所示。因此，弥合近距离和HRW镜头中目标检测之间的差距至关重要。

受近期提高目标检测精度的先进技术[33, 36, 42, 45, 46, 53]的启发，作者提出了一种针对HRW镜头的新型检测器，称为SparseFormer。SparseFormer通过选择性使用注意力 Token 来关注图像中物体Sparse分布的区域，从而促进细粒度特征的提取。为实现这一目标，它学习了一个ScoreNet来评估区域的重要性。通过检查所有区域的重要性得分的方差，SparseFormer优先考虑能够捕捉丰富细粒度细节的区域。因此，它可以专注于复杂的图像区域，而不是不那么重要的区域（例如，背景中的平滑内容）。同时，它将每个HRW镜头划分为非重叠窗口以提取粗粒度特征。与原始Vision Transformer[8]的接受场策略有相似精神，作者提出的SparseFormer结合了粗粒度和细粒度特征，比Swin Transformer实现了更高的效率。这极大地有助于处理大规模变化并准确检测大物体和小物体。

作者进一步提出了两种创新技术来提高对大规模变化检测的准确性。首先，作者观察到传统的非极大值抑制（NMS）仅参考置信度分数来合并检测结果，导致 oversized 目标的边界框不完整。

为了解决这个问题，作者提出了一种新颖的跨切片NMS方案（C-NMS），该方案优先考虑置信度高的较大边界框。所提出的C-NMS方案显著提高了 oversized 目标的检测准确性。其次，作者采用多尺度策略来提取粗粒度和细粒度特征。多尺度策略扩大了感受野，提高了对大目标和小目标的检测准确性。

总之，本工作的主要贡献如下：

• 作者提出了一种基于Sparse视觉Transformer的新型检测器，用于处理HRW图像中的大规模变化。
• 作者进一步采用跨窗口NMS和多尺度方案来提升对大、小目标的检测效果。
• 作者在两个大规模HRWshot基准数据集PANDA和DOTA-v1.0上对方法进行了广泛验证。SparseFormer在性能上大幅超越了现有技术水平。

2 相关工作

近距离拍摄检测模型。大多数常见的目标检测数据集，如PASCAL VOC [9] 和 MS COCO [28]，收集了高分辨率且包含近距离拍摄的图像，这对目标检测的发展做出了重大贡献。基于检测Head，文献可以大致分为两类：单阶段检测器和双阶段检测器。双阶段目标检测的主要目标是准确性，它将检测过程描述为“由粗到精”的过程 [3, 12, 13, 18, 39]。另一方面，单阶段检测器在速度方面具有优势，例如YOLO [37]。后续工作尝试进行了改进，如增加 Anchor 点、改进架构和更丰富的训练技术 [11, 29, 38]。总之，当前的检测器在近距离拍摄中表现出极高的速度和准确性。

高分辨率宽视角检测模型。成像系统的引入导致了用于高分辨率宽视角（HRW）检测的新基准PANDA [49] 的开发。这个基准最近受到了广泛关注。以往关于吉像素级检测的研究主要集中在通过 Patch 选择或排列来实现更低延迟 [5, 10, 23, 24, 34]。然而，它们无法解决HRW检测中面临的独特挑战。一些工作在 Patch 上使用Sparse策略 [36]、自注意力头 [33] 和Transformer块 [33] 进行图像分类。PnP-DETR [46] 利用投票和池化采样器从 Backbone 网络中提取图像特征，并将Sparse Token 输入到注意力编码器。这种方法在目标检测、全景分割和图像识别方面显示出有效性。然而，对 Backbone 网络上的Sparse采样尚未得到充分研究。DGE [42] 是视觉Transformer的插件，但它不够灵活，无法扩展到基于ConvNet的模型或使用任意大小的图像作为输入。因此，如何设计一个灵活且模型无关的架构以用于HRW检测的目标检测问题仍然是一个未充分探索的领域。

Transformer Backbone。Transformer在自然语言处理（NLP）领域取得了成功，其在视觉任务上的潜力也引起了广泛关注。其中一个例子是视觉Transformer（ViT）[8]，它使用纯Transformer模型进行图像分类，并显示出有希望的结果。然而，ViT处理高分辨率图像的计算成本不切实际。已经尝试了多种方法来降低ViT模型成本，包括基于窗口的注意力[30]、自注意力中的下采样[47, 50]和低秩投影注意力[52]。其他工作则使用Sparse策略在图像块[36]、自注意力头[33]和Transformer块[33]上进行图像分类。不幸的是，这些方法在检测高分辨率宽视角中的目标时，准确性显著下降。

3 提出方法

作者通过提出Sparse视觉Transformer来解决HRW检测的独特挑战。该模型能够有效地从Sparse信息中提取有价值特征，同时扩大感受野以处理大规模变化。为了解决交切片区域中不完整的大物体问题，作者对传统的非极大值抑制（NMS）进行了修改。此外，作者引入了基于HRW的增强方法，用于训练和推理阶段，以提高大物体和小物体的检测精度。流程图如图3所示。

3.1 SparseFormer概述

理想的视觉模型应能够利用有限的计算从Sparse数据中提取有意义的信息，就像作者的眼睛倾向于关注有价值区域而不是不重要背景信息一样。为了实现这一点，作者设计了一种名为SparseFormer的新型Sparse视觉Transformer。它能够动态选择关键区域，并启用动态感受野以覆盖各种尺度的目标。SparseFormer的整体框架如图4所示。

受Swin Transformer的启发，作者将输入图像分割成非重叠的块以生成 Token 。SparseFormer由四个阶段组成，它们协同工作以产生自适应表示。每个阶段都以一个块合并层开始，该层将每个2×2相邻块组的特征连接起来。然后，使用线性层将这些连接的特征投影到其维度的一半。

SparseFormer的每个阶段都围绕设计用于捕捉不同尺度上的长程和短程交互的注意力块展开。为了实现这一点，作者结合了标准自注意力Transformer块和Swin Transformer块的优势。因此，作者开发了两种不同类型的Sparse风格块。一种用于在粗粒度上捕捉长程交互，而另一种则专注于在更精细的尺度上捕捉短程交互。

为了便于这种方法的实现，作者引入了窗口的概念，将每个特征图划分为等间距的窗口。每个窗口内的操作被认为是“局部”的，而涵盖所有窗口的操作则是“全局”的。作者更详细地概述了全局和局部注意力块。作者使用标准的多头自注意力（MSA）[43]和聚合特征的多层感知器（MLP）模块，或仅使用卷积层来构建全局块，具体细节见第3.2节。作者通过在Swin Transformer [30]块前后添加Sparse化和逆Sparse化步骤来构建局部块，如第3.3节所述。与先前的工作[46, 55]不同，作者并没有为全局和局部注意力构建独立的分支。相反，局部注意力被放置在全局注意力之后，以获得更多细节，而不是不同的特征。当一个阶段有多个块时，全局注意力块（G）和局部注意力块（L）的顺序遵循“GGLL”的模式。

3.2 全局注意力机制在聚合特征上的应用

特征聚合 。全局注意力旨在通过长距离交互捕捉粗粒度特征。因此，作者通过在每个窗口中Sparse化特征来生成低分辨率信息。如图4所示，作者以全局注意力模块作为每个阶段的开始。该模块的主要功能是聚合每个窗口的特征。

为了实现这一点，作者将输入特征图划分为大小为的窗口，并确保它们不重叠。每个窗口的左上角位置由给出，窗口内的每个 Token 都有一个相对位置。然后，作者使用以下公式计算聚合特征：

在此，和，其中是每个 Token 的权重。在本文中，作者通过设置来对所有 Token 赋予相同的权重。使用上述公式对特征进行聚合后，作者得到聚合特征，该特征可以进一步用于注意力机制。

窗口级全局注意力 。特征聚合是一种通过将 Token 数量减少到倍的技术，相当于分辨率下采样倍。这种 Token 数量的减少使作者能够在不进行昂贵计算的情况下使用全局注意力交互。使用聚合后的特征，连续的全局块的计算方法如下：

表示第个全局块的输出特征。

逆聚合特征 。聚合特征包含有助于不同图像区域之间全局内容依赖交互的抽象信息。然而，它们的分辨率与输入特征图不同。因此，作者使用方程（1）的逆函数将窗口级特征转换回 Token 级，具体如下：

此处，和，其中和分别代表输入和输出特征图上的位置。此外，代表相对于的相对位置。作者将视为输出特征图上每个窗口的左上角，窗口的划分方式与特征聚合过程相同。

此步骤从连续的全局块中提取输出特征图。然后，作者使用方程（3）对其进行逆变换，并将得到的特征图表示为。值得注意的是，最终的全局特征与输入特征图具有相同的分辨率。尽管聚合特征具有较低的分辨率，但全局注意力操作可以在额外计算很少的情况下提供更多非局部信息。

3.3 Sparse窗口上的局部注意力

基于方差评分。请注意，每个窗口的粗粒度特征可以实现高效率。然而，作者仍然需要细粒度特征来提取目标细节，以准确检测目标。因此，作者根据其低信息含量丢弃某些窗口以减少计算。作者的目标是识别需要进一步局部关注的窗口，因为这些窗口 Level 的特征无法代表其内部 Token Level 的特征。

作者从维度为的初始特征图开始，在应用全局和局部注意力之前。然后，作者使用公式（1）从中获取聚合特征，并通过公式（3）应用逆Sparse化函数，生成与具有相同分辨率的中间特征图。接下来，作者计算和之间的残差，并将每个窗口的特征连接起来，以获得尺寸为的 Token ，其大小为。作者使用 MLP 构建一个 ScoreNet，根据每个残差生成分数。

MLP将每个窗口的维特征投影到1维，SoftMax操作计算每个窗口的得分。得分越高表示方差越大，意味着高方差窗口需要细粒度关注。换句话说，作者在局部注意力过程中丢弃得分较低的窗口。一旦作者对窗口进行排序，作者可以选择其中的一部分来生成更细粒度的特征。在此操作之前，作者使用全局特征更新特征图。

窗口Sparse化。作者首先分析全局注意力和基于方差的评分，以获得每个窗口的初始特征和评分。接下来，作者将分成与 ScoreNet 相同大小的窗口，即。作者将这些窗口表示为一个矩阵，其中是窗口的总数，即，。

为了确定保留哪些窗口，作者定义一个超参数来表示保留比率。作者维护一个二进制决策 Mask 向量，根据和评分来指示是否丢弃或保留每个窗口。的值将取决于具体任务，并可按需调整。Sparse矩阵收集向量的单热编码，其中是保留窗口的数量，即。使用这个Sparse矩阵，作者计算Sparse窗口的特征如下：

输出特征然后被用作局部注意力的输入。

基于平移窗口的注意力。作者利用了首次在Swin Transformer中提出的基于平移窗口的注意力模块。连续的局部块可以表示为：

表示局部块的输出特征。该层可以是自注意力或卷积模块。为了融合局部注意力的输出和输入特征，作者使用以下方法：

在此，通过局部注意力进行更新，而是 SparseFormer 每个阶段的输出。最后，作者将转换回的原始维度空间，以获得最终的特征图，记为。基于方差评分的窗口注意力可以以轻量级的形式提取更多局部信息，从而提高小物体的检测性能，同时节省背景的计算。

端到端优化。由于作者仅使用输出结果对窗口进行排序，无法进行梯度反向传播，因此优化ScoreNet具有挑战性。为了克服这一问题，作者实现了Gumbel-Softmax技巧，以放松采样过程，使其可微分。该技巧通过重新参数化，在软值和二值化值之间提供了一个梯度反向传播的桥梁。因此，作者将公式（5）重新写为：

在此，表示SoftMax函数的输出，它表示窗口的得分。

3.4 跨切片非极大值抑制

在HRW射击处理中，切片策略为每个切片生成候选框，这些候选框随后必须合并成一个互不冲突的框集。然而，使用非极大值抑制（NMS）来选择得分最高的框可能导致在目标位于多个切片的边缘区域时出现不完整的框（更详细的解释和可视化表示，请参阅图5）。为了解决这个问题，作者提出了一种跨切片非极大值抑制方法。

抑制（C-NMS）策略，如图1所示，该策略优先考虑多个切片中面积最大的框，而不仅仅是最高分数的框。C-NMS算法包括两个阶段：局部抑制阶段和跨切片抑制阶段。

3.5 多尺度训练与推理

由于内存限制，无法在原始尺寸下训练和测试超高分辨率数据集。因此，作者在训练和测试阶段都采用了切片策略。为了更好地利用多尺度信息，作者使用高分辨率图像，并利用切片策略将它们分割成不同大小的块。所有切片都被缩放到相同的大小，从而使得目标检测器能够进行有效的训练和推理。作者将图像分别划分为、、和的网格，并移除无目标的切片。这种方法使作者能够分析和理解这些图像的复杂特征，最终提高检测器的整体准确性和有效性。

在推理阶段，作者使用两种大小的切片窗口：原始大小和高度和宽度各为四分之一的大小。作者并非简单地将两个窗口合并，而是为两种类型的窗口设置了不同的感受野，并设定了一个阈值。基于第一个窗口，作者移除预测框中大于的部分。作者只保留第二个窗口中大于的框。这遵循了特定尺度设计的理念[40, 41]，即作者应该安排每个窗口以覆盖适当的尺度以提高性能。使用这项技术，作者可以快速准确地处理高分辨率图像。

4 实验

4.1 效果评估

数据集。作者的评估基于两个包含HRW射击的公开基准数据集，PANDA [49] 和 DOTA-v1.0 [51]。PANDA 是第一个以人为中心的吉兆像素级数据集。它包含18个场景，标注了超过15,974.6k个边界框。具体来说，有13个场景用于训练，5个场景用于测试。DOTA 是一个大规模数据集，用于评估空中图像中的定向目标检测，图像尺寸高达。它包含2,806张图像和188,282个带有定向边界框标注的实例，覆盖了15个目标类别。

评估指标。作者报告了FLOPs和标准COCO指标，包括，（），（