专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
女神汇  ·  医院人均空耳人...哈哈哈评论笑发财! ·  5 天前  
湖北经视  ·  突然宣布:他将退赛!冲上热搜 ·  昨天  
51好读  ›  专栏  ›  小白学视觉

顶刊解读 TGRS | 用于微小目标检测的去噪特征金字塔网络与transformer区域卷积神经网络

小白学视觉  · 公众号  ·  · 2025-01-02 10:05

正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达

A DeNoising FPN With Transformer R-CNN for Tiny Object Detection

用于微小目标检测的去噪特征金字塔网络与transformer区域卷积神经网络

作者:Hou-I Liu, Yu-Wen Tseng, Kai-Cheng Chang, Pin-Jyun Wang, Hong-Han Shuai, and Wen-Huang Cheng

源码链接:https://github.com/hoiliu-0801/DNTR

论文创新点

  1. 提出了DN-FPN模块,通过对比学习减少FPN的噪声问题,有效提升了微小目标检测性能。
  2. 引入了Trans R-CNN检测器,结合视觉transformer的优势,增强了对微小目标的全局信息捕获能力。
  3. 创新性地应用洗牌展开算法和掩码transformer编码器,提高了微小目标检测的局部和全局辨识特征。

摘要

尽管计算机视觉(CV)领域取得了显著进展,但微小目标的精确检测仍然是一个重大挑战,这主要是因为这些目标在图像数据中的像素表示非常有限。这一挑战在地球科学和遥感领域尤为突出,其中对微小目标的高保真检测可以促进从城市规划到环境监测的多种应用。在本文中,我们提出了一个新的框架,即去噪特征金字塔网络(FPN)与transformer区域卷积神经网络(R-CNN)(DNTR),以提高微小目标检测的性能。DNTR由一个易于插入的设计DeNoising FPN(DN-FPN)和一个有效的基于transformer的检测器Trans region-based convolutional neural network(R-CNN)组成。具体来说,FPN中的特征融合对于检测多尺度目标至关重要。然而,在融合过程中可能会产生噪声特征,因为不同尺度的特征之间没有正则化。因此,我们引入了一个DN-FPN模块,该模块利用对比学习来抑制FPN的自顶向下路径中每个层级特征的噪声。其次,基于两阶段框架,我们用一个新颖的Trans R-CNN检测器替换了过时的R-CNN检测器,以关注通过自注意力表示微小目标。实验结果表明,我们的DNTR在AI-TOD数据集上至少比基线提高了17.4%的APvt,在VisDrone数据集上平均精度(AP)提高了9.6%。我们的代码将可在https://github.com/hoiliu-0801/DNTR找到。

Part1 方法

由于微小目标缺乏像素表示,它们的表现更容易受到噪声的影响。此外,整合周围像素的局部和全局信息可以增强微小目标的表现。为此,我们提出了一个有效的检测框架,即DNTR,用于微小目标检测。我们DNTR的指导概念是利用增强的几何和语义关系,有效地捕获RoI特征内的局部和全局信息,从而提高微小目标的性能。因此,可以实现两个目标。

  1. 通过保留纯粹的几何和语义信息,可以减少FPN特征在融合过程中引入的噪声(DN-FPN)。
  2. 可以更好地利用RoI特征来捕获局部和全局信息,从而实现更好的检测(Trans R-CNN)。

图3显示了DNTR的整体结构,其中图3(a)说明了提出的DN-FPN,这是一个通过所提出的对比损失优化的具有几何和语义编码器的FPN。这部分的目标是在FPN融合过程中减少噪声。之后,FPN特征经过RPN和RoIAlign[32]以获得RoIs。图3(b)展示了所提出的创新检测器Trans R-CNN,旨在增强局部关系并捕获RoI内的更多全局信息。我们将在第III-A节和III-B节中详细描述DN-FPN和Trans R-CNN。

DN-FPN

FPN[17]通过合并不同级别的特征极大地改进了目标检测的发展。FPN在第i层的融合过程可以被公式化为:

其中 代表自顶向下路径中的特征, 代表自底向上路径中的特征,即由下采样产生的ResNet50骨干产生的多尺度特征(参见图1)。此外, 表示FPN的级别数。 是通道缩减的卷积操作, 是上采样操作。作为FPN的共识,横向特征包含强烈的低级信息,因为高分辨率特征图代表几何表示。相比之下,上层特征由于更深层次的特征提取而拥有丰富的语义表示。由于几何信息由于通道缩减而失真(称为噪声),而语义信息由于上采样而面临类似的问题,我们将FPN噪声问题表述为几何和语义信息丢失问题。为了解决这些问题,我们提出了DN-FPN,一种对比学习方法,消除由通道缩减 和上采样 产生的噪声。DN-FPN的目标是保留横向特征 的几何信息和上层特征 的语义信息,以消除融合特征 中的噪声。

  1. 几何和语义表示:首先,我们使用几何和语义编码器从FPN的每个级别的特征中提取几何和语义信息。具体来说,我们将横向特征 投影到几何表示和语义表示 ,分别通过几何和语义编码器,其中 表示FPN的第 层, 表示小批量中不同样本的索引。同样,上层特征 也被投影到几何表示和语义表示 ,分别通过几何和语义编码器。值得注意的是,我们考虑对比损失中的不同层级和批次的几何和语义表示。

给定FPN的 层和 张图像,我们将FPN的特征图分解为几何表示集 和语义表示集 ,如图4所示。随后,我们努力减少融合特征的几何信息与横向特征的几何信息之间的距离,因为横向特征表示未受干扰的几何信息。同样,我们将融合特征的语义信息与上层特征拉近。相反,我们旨在排斥与融合特征无关的来自不同层级和批次的几何和语义信息。

具体来说,我们使用InfoNCE损失[52]来学习几何表示 之间的更好关系,称为几何关系,以及语义表示 之间的语义关系。建立几何和语义表示之间的更好关系可以导致无噪声的特征融合,使FPN结构更加可靠。几何和语义关系的正负样本如下介绍。

  1. 几何关系:如图4所示,横向特征 用于向融合特征 提供几何信息。理想情况下,来自 的几何表示应该是相同的。然而,通道缩减损害了自顶向下的特征 ,导致与横向特征 的几何信息不等。

给定顶层路径的第 层和第 批次,我们将几何表示 (查询)和 (正样本)视为正样本对,因为几何信息应尽可能相似。相反,我们定义所有不同层级的几何表示来自小批量中的不同图像为负样本。几何关系( )的负样本集可以表示为:

因此,第 层第 批次的几何损失,记为 ,由下式导出:

其中温度 用于控制特征在表示空间中的集中度。总体几何损失可以计算如下:

  1. 语义关系:按照FPN的概念,上层特征向自顶向下路径的下层特征传播丰富的语义信息,即融合特征 。 理论上, 应具有相同的语义表示。然而,上采样操作可能会产生冗余噪声,丢失语义信息。 在这种情况下, 不再等价。

因此,给定自顶向下路径的第 层和第 批次,我们将语义表示 (查询)和 (正样本)视为正样本对。相反,我们将小批量中不同图像的语义表示视为负样本。语义关系( )的负样本集可以表示为:

同样,第 层第 批次的语义损失,记为 ,由下式导出:

总体语义损失可以计算如下:

总之,图4详细说明了几何和语义表示之间的关系。通过 ,融合特征与信息源(横向和上层特征)保持一致。因此,微小目标可以通过DN-FPN生成的特征更好地被检测。

Trans R-CNN

在DN-FPN获得增强的多尺度特征后,下一步是更好地利用这些特征进行微小目标检测。根据过去的两阶段检测方法,R-CNN[27]为生成RoI特征进行目标检测提供了很好的方式,而长距离依赖性难以通过全连接(FC)层捕获。因此,我们引入了一个有效的检测器Trans R-CNN,包括洗牌展开机制、MTE和TTS机制,如图5所示。Trans R-CNN的目标是增强微小目标的表现,并增加这些表现的全局信息。因此,我们提出了洗牌展开以增加微小目标表现的多样性,并设计了MTE来整合掩码自注意力层以获得全局信息。为了扩大上述方法的好处,TTS机制被用来更好地处理检测头部的任务特定标记。

  1. 洗牌展开:图6说明了所提出的洗牌展开。这个算法旨在过采样邻近的补丁标记,通过保持复杂空间细节的展开操作将它们积累起来,这一策略在微小目标检测中至关重要。

在通过RPN和RoIAlign生成RoI特征后,我们将每个RoI特征平均分割为带有重叠的标记。这确保了每个标记与周围标记保持连续的局部信息。随后,我们将 滑动窗口内的标记连接为展开标记,以更好地利用空间信息。对于连接顺序,由于仅使用光栅扫描顺序[48]可能会限制特征多样性,我们提出了洗牌顺序以增加特征的多样性。洗牌顺序通过随机连接它们来过采样展开标记的组合。由于展开标记是从周围标记连接的,增加特征多样性可以被视为增强局部信息。

具体来说,光栅扫描顺序只包含相同的展开标记组合。相比之下,在洗牌顺序中,展开标记的组合与滑动窗口的大小成比例,可以超过光栅扫描顺序 倍。尽管如此,由于复杂性,我们使用过采样率 来控制生成的展开标记的数量。例如, 表示4倍标记数量,另外三个展开标记(浅橙色)通过从原始标记(橙色)洗牌生成。设 表示第 个展开标记,维度为 。展开标记序列 可以在RoI内保持空间相关性(标记的顺序),并通过变化的标记组合获得丰富的空间信息。请注意,展开标记的顺序在洗牌展开操作后是固定的。以下操作,如多头自注意力(MSA)层和FC层,保持这个顺序,从而保留展开标记的空间关系。

  1. 掩码transformer编码器:配备了展开标记序列后,我们进一步设计了MTE来捕获RoI内的更多全局信息,这是一个有效的编码器,由两个掩码自注意力层组成。首先,在注意力机制之前,我们将展开标记序列 与类标记( )和框标记( )进行连接,形成局部标记序列

请注意, 是两个可学习的标记,分别代表分类和回归头部的任务特定标记。其次,为了获得全局信息,MTE将局部标记序列 转换为全局标记序列 ,通过MSA层实现。具体来说, 通过MTE与 通信,形成全局标记序列







请到「今天看啥」查看全文