专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
51好读  ›  专栏  ›  极市平台

干翻一众 FPN,专攻小目标检测!CFPT:无需上采样的新型特征金字塔网络

极市平台  · 公众号  ·  · 2024-08-08 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨集智书童
来源丨集智书童
编辑丨极市平台

极市导读

在本文中,作者提出了跨层特征金字塔 Transformer (CFPT),这是一种无需上采样的新型特征金字塔网络,专门为航拍图像中的小目标检测而设计。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

目标检测一直是一项具有挑战性的任务。大多数当前检测器优先考虑新颖的检测框架,却常常忽视了对基本组成部分(如特征金字塔网络)的研究。在本文中,作者提出了跨层特征金字塔 Transformer (CFPT),这是一种无需上采样的新型特征金字塔网络,专门为航拍图像中的小目标检测而设计。CFPT采用了两个精心设计的、具有线性计算复杂度的注意力模块:跨层通道注意力(CCA)和跨层空间注意力(CSA)。


CCA通过划分通道 Token 组来实现跨层交互,以沿空间维度感知跨层全局信息;而CSA则通过划分空间 Token 组来完成跨层交互,以沿通道维度感知跨层全局信息。通过整合这些模块,CFPT一步实现跨层交互,从而避免了元素逐点加和以及层与层之间传递引起的语义差距和信息丢失。此外,CFPT融入了全局上下文信息,这增强了小目标的检测性能。为了在跨层交互中进一步提升位置感知,作者基于层间相互感受野提出了跨层一致相对位置编码(CCPE)。作者在两个具有挑战性的航拍图像目标检测数据集上评估了CFPT的有效性,分别是VisDrone2019-DET和TinyPerson。大量实验证明了CFPT的有效性,它在计算成本更低的情况下,性能优于现有的特征金字塔网络。


相关代码将在https://github.com/duzw9311/CFPT发布。

I Introduction

得益于卷积神经网络(CNNs)和视觉 Transformer (ViTs)的进步,现有的目标检测器已经取得了显著的发展,并在自动驾驶、人脸检测、医学图像分析和工业质量检查等众多应用领域奠定了其基本解决方案的地位。

作为目标检测的一个子领域,小目标检测由于在卷积和池化操作过程中小目标特征可能会被大目标特征所淹没或遮盖,因此相较于传统的目标检测任务面临更大的挑战。如图3所示,作者展示了两个经典的小目标检测数据集在航拍图像中的数据分布箱线图:VisDrone2019-DET [2] 和 TinyPerson [3]。箱线图凸显了 VisDrone2019-DET 数据集不仅包含大量小目标(20到30像素),而且存在显著的尺度变化。相比之下,TinyPerson 数据集相比于 VisDrone2019-DET,主要包含更小尺寸的目标,大多数目标的大小不超过20像素。无人机飞行高度和拍摄角度显著影响目标尺度分布,导致在航拍图像上的目标检测性能相对较差。

图1:在VisDrone2019-DET数据集上,各种最先进特征金字塔网络的性能比较。作者通过替换RetinaNet [1]中的 Neck 组件来评估它们的性能。

为了应对这些挑战,已经连续提出了许多研究。鉴于无人机场景中前景的比例较小,现有的解决方案通常采用由粗到精的检测方案[4, 5, 6]。在粗略预测阶段,通常使用一个通用检测器来检测目标并预测密集的目标簇。随后,在细化阶段,通常会修剪、上采样该簇,并将其重新输入检测器以进行精细搜索。尽管上述模型架构可以有效地适应无人机视角,并且在较低的计算成本下比直接输入高分辨率图像增强了各种检测器的性能,但它仍然缺少专为空中图像中目标检测定制的基本组件,例如特征金字塔网络。特征金字塔网络作为图像金字塔的低计算成本替代方案,在多种检测器中被广泛使用,并已成为每个检测器的基本组成部分。最早的FPN [7]使用自上而下的单向路径将语义信息整合到浅层特征图中,有效增强了模型在多尺度目标检测方面的能力。由于逐层传递的单向路径不可避免地造成信息丢失[8],随后的特征金字塔网络逐渐过渡到层与层之间的直接交互。

作者提出CFPT,一种新的跨层特征金字塔结构,它通过在不同方向(即空间方向和通道方向)促进跨层信息交互来增强模型的表达能力。

通过整合这两种交互,CFPT能够有效地捕获小型目标的必要全局上下文信息,同时保持较低的计算成本。

  • 作者提出CCPE,一种基于层间互惠感受野的新型位置编码方法,旨在增强模型在跨层交互过程中对空间和通道位置的认识。
  • 通过在VisDrone2019-DET和TinyPerson数据集上的大量实验,作者证明了CFPT在航拍图像中小型目标检测的有效性。

II Related Work

Small Object Detection in Aerial Images

现代的目标检测器通常通过连续的卷积和池化层降低输入图像的分辨率,力求在性能与计算复杂度之间达到最佳平衡。因此,检测小物体本质上比常见目标检测更具挑战性,因为它们的小尺寸增加了在下采样过程中信息丢失的风险。

对于航拍图像中的小目标检测,ClusDet [17]采用了一种从粗到精的方案,首先检测密集的目标簇,然后在这些簇内进行搜索细化,以提高模型检测小物体的能力。DMNet [18]简化了ClusDet的训练过程,通过采用密度图生成网络来为簇预测生成密度图。遵循类似的检测流程,CRENet [19]和GLSAN [4]进一步增强了聚类预测算法,并优化了细粒度预测方案。UFPMP-Det [6]采用UFP模块和MPNet预测子区域,并将它们组装成单一图像以实现高效的单一推理,从而提高了检测的准确性和效率。CEASC [20]利用稀疏卷积优化了航拍图像中目标检测的传统检测器,降低了计算需求同时保持了竞争力的性能。DTSNNet [21]在Backbone和Neck之间引入了人工设计的块,以提高模型对多尺度特征的敏感性,并采用了专门针对小物体的训练样本选择方法。

上述解决方案优化了各种检测器,以适应航拍图像中的目标检测场景,而作者提出了一种专门针对这一背景下小目标检测的新型特征金字塔网络。

Feature Pyramid Network

为了减轻图像金字塔带来的巨大计算成本,特征金字塔网络(FPN)作为一种有效且高效的替代方法出现,它提高了各种检测器的性能。FPN [7] 利用一系列自顶向下的快捷连接来增强浅层特征图中缺乏的语义信息。基于FPN,PAFPN [12] 提出使用自底向上的快捷连接来解决深层特征图中细节信息的不足。Libra-RCNN [22] 通过结合非局部块来改进原始特征,以获得平衡的交互特征。为了减轻多尺度特征图中的语义差距,AugFPN [23] 引入了连贯的监督分支,并提出了ASF,用于跨多尺度动态特征融合。FPG [8] 使用规则网格表示特征尺度空间,并通过平行路径之间的多方向横向连接进行融合,从而增强了模型的特征表示能力。AFPN [11] 通过深层和浅层特征图的跨 Level 融合迭代改进多尺度特征,在具有常见尺度分布的目标检测中取得了竞争性的性能。

与先前方法不同,作者提出了CFPT,它利用全局上下文信息,并策略性地强调浅层特征图,以增强航拍图像中小型目标的检测。

Vision Transformer

作为计算机视觉中Transformer[24]的扩展,Vision Transformer (ViT)[25]在各种各样的视觉场景中[26, 27, 28]展示了显著的潜力。由于传统ViT与图像分辨率相关的二次计算复杂度,后续研究主要集中在开发轻量级的替代方案。Swin Transformer[29]通过限制特定窗口内的交互,并在交互过程中移动这些窗口以实现全局感受野。局部ViT[30, 31, 32]通过局部窗口内的交互引入局部诱导偏差,有效降低了模型的计算复杂度并加快了收敛速度。轴向注意力[33]通过将交互限制在图像宽度和高度上的条带,减少了计算复杂度。

遵循类似的轻量级概念,作者设计了两款具有线性复杂度(即CCA和CSA)的注意力块,以跨层捕捉沿各种方向(即空间方向和通道方向)的全局上下文信息,从而增强了模型对小物体的检测能力。

III Methodology

在本节中,作者将详细介绍所提出的跨层特征金字塔 Transformer (CFPT)。在第三节A部分,作者首先概述了所提出CFPT的整体架构。随后,在第三节B和C部分,作者介绍了CFPT的两个关键组成部分,即跨层通道注意力(CCA)和跨层空间注意力(CSA)。在第三节D部分,作者提出了一种新颖的跨层一致相对位置编码(CCPE),旨在增强模型的跨层位置感知能力。

Overview

如图4所示,CFPT采用多个并行的CBR块来构建跨层特征交互的输入,这些输入来自特征提取网络(如ResNet[34])的多级特征图输出,从而降低了计算复杂度,满足了大多数检测器在架构上的要求。通过利用堆叠的跨层注意力模块(CAMs),CFPT增强了模型利用全局上下文信息和跨层多尺度信息的能力。

具体来说,CAM模块由一系列跨层通道注意力(CCA)和跨层空间注意力(CSA)组成。CCA沿着通道维度促进局部跨层交互,从而通过每个通道 Token 组的交互在空间维度上建立一个全局感受野。相反,CSA沿着空间维度促进局部跨层交互,通过每个空间 Token 组的交互捕捉通道维度的全局上下文信息。此外,作者通过在CAM的输入和输出之间使用捷径分支来进一步提高梯度增益。

假设经过CBR块后每个尺度的特征图可以表示为 , 其中 是输入层的数量, 每个特征图的空间分辨率 随橧加而增大, 同时保持通道数 不变。上述过程可以描述为

其中 是一组经过跨层交互的多尺度特征图,其形状与相应的输入特征图保持一致。

值得注意的是,作者的CFPT消除了复杂特征上采样操作和逐层信息传输机制,这些机制在层间传输过程中容易造成信息丢失,并导致计算负载增加和内存访问延迟。相反,作者通过利用尺度间相互感受野大小的局部分组操作,对多尺度特征图执行一步跨层邻近交互操作,从而促进尺度间的信息混合。这种方法使得每个尺度的特征能够平衡地从其他层获取信息(即使这些层相隔较远),同时促进自我修正,并从局部交互提供的归纳偏置中受益[32]。

跨层通道注意力

假设CCA的输入特征图集合为 。如图5(a)所示, CCA沿着通道维度执行跨层的多尺度邻近交互, 从而为每个通道 Token 提供空间维度的全局上下文信息。为了构建交互式输入, 作者首先在每个尺度上对特征图执行通道重建 (CR), 以确保它们具有相同的空间分辨率, 从而得到 。CR是一个与YOLOv5中的Focus类似的操作符,但不同之处在于它不使用额外的操作进行特征映射。相反, CR将空间维度的特征值堆叠到通道维度, 从而在保持效率的同时实现一致的空间分辨率。上述过程可以描述为

接下来, 作者执行重叠通道式 Patch 划分 (OCP) 以形成通道式标记组, 这可以看作是沿着通道维度在局部区域具有重叠区域的 Patch 嵌入[25], 其中不同尺度的特征图上的 Patch 大小是不同的。具体来说, 根据多尺度特征的形状, 中相邻特征图的通道大小相差一个 4 倍因子(即, )。为了构建重叠的邻近交互组, 作者引入一个扩展因子 执行OCP, 从而得到 。上述过程可以描述为:

以第 层的特征图为例, 在获得 之后, 作者采用跨层一致的多头注意力机制来捕获沿空间维度的全局依赖性, 从而得到交互结果

其中 是线性投影矩阵。 分别表示连接的键和值, 其中 代表连接操作。 表示第 个跨层一致相对位置编码(CCPE), 具体细节将在第三节D中介绍。注意, 为了简化, 作者只考虑头数为 1 的情况。在实践中, 作者采用多头机制来捕获每个通道式标记的全局依赖性。

在为每个尺度的特征图获得交互结果 之后, 作者应用反向重叠通道式 Patch 划分 (ROCP) 来恢复 OCP 的影响, 并得到 。作为 OCP 的反向操作, ROCP旨在使用与OCP相同的核大小和步长来恢复原始的空间分辨率。

作者最终使用空间重建 (SR) 来获得与输入X形状相匹配的结果

Cross-layer Spatial-wise Attention

同样,将CSA的输入特征图集合表示为 。如图5(b)所示,CSA沿着空间维度跨层执行多尺度邻近交互,为每个空间标记提供沿通道维度的全局上下文信息。

由于输入特征图的通道大小在CBR块后匹配(例如,256),无需使用CR和SR等方法来调整它们的大小, 正如在CCA中所做的那样。因此, 作者可以直接执行重叠空间划分 (OSP) 来形成空间标记组, 这可以看作是在不同尺度特征图上使用不同大小的矩形框进行滑动裁剪。假设OSP的扩展因子为 , 通过上述操作, 作者可以得到 。上述过程可以表示为

然后, 作者在跨层空间标记组内执行局部交互, 并使用跨层一致性多头注意力来捕获沿通道维度的全局依赖性, 从而得到 。对于第 层的特征图, 这个过程可以表示如下:

其中 是线性投影矩阵。 表示第 层的跨层一致性相对位置编码 (CCPE) 。

接下来, 作者使用反向重叠空间划分(ROSP)来反转OSP的效果, 并获得交互结果集

Cross-layer Consistent Relative Positional Encoding

由于在交互过程中,它们各自的跨层标记组内的每个标记都保持着特定的位置关系。然而,传统的多头注意力机制统一处理所有交互标记,这对于像目标检测这样对位置敏感的任务来说会导致次优结果。因此,作者引入了跨层一致相对位置编码(CCPE),以增强CFPT在交互过程中的跨层位置感知。

CCPE的主要解决方案是基于对多个尺度上的相互感受野进行对齐, 这由卷积的特性决定。以CSA 为例, 每对空间标记组之间的注意力图集合其中 是头的数量, , 如方程 9 中定义。为了简化, 作者忽略 , 并定义 , 其中 分别表示第 层和第 层空间标记组的高度和宽度。因此, 注意力图集合可以重新表示为

CCGE的过程如图6所示。作者定义了一个可学习的码本 , 并通过计算它们的跨层一致相对位置索引, 从码本中获取任意两个标记之间的相对位置信息。为了简化, 考虑来自第 层和第 层的空间标记组的交互,其中 分别表示它们各自的绝对坐标矩阵。

为了获得 相对于 的相对位置信息, 作者首先使用它们各自的空间标记组大小来中心化它们的坐标, 以获得

Complexity Analysis

在本节中,作者将分析典型相关分析(CCA)和通道分割注意力(CSA)的计算复杂性。此外,由于在训练和测试阶段,空间域和通道域的标记组大小保持不变,它们的计算复杂性与输入特征图的空间分辨率成线性关系。

Iii-E1 Cross-layer Channel-wise Attention

考虑一组输入特征图集合, 记作 。此外, 令 表示在CCA中使用的扩展因子。CCA的整体计算复杂度包括线性投影的







请到「今天看啥」查看全文


推荐文章
玄鸟书屋  ·  深知身在情长在
7 年前