专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
响水零距离公司  ·  响水年后新岗热招!月薪5000+交五险 ... ·  2 天前  
江苏新闻  ·  3月1日起,开始退钱! ·  3 天前  
新疆药品监管  ·  2025年药械等重点领域广告监管工作要点发布 ·  3 天前  
新疆药品监管  ·  2025年药械等重点领域广告监管工作要点发布 ·  3 天前  
海宁19楼  ·  【每日嘉宾推荐 · ... ·  4 天前  
海宁19楼  ·  【每日嘉宾推荐 · ... ·  4 天前  
51好读  ›  专栏  ›  小白学视觉

【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

小白学视觉  · 公众号  ·  · 2024-12-06 10:11

正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达

扫描下方二维码,加入前沿学术论文交流星球 可以获得最新顶会/顶刊论文的idea解读、解读的PDF CV从入门到精通资料,及最前沿应用

论文信息

题目:Diffusion-Based Continuous Feature Representation for Infrared Small-Dim Target Detection
作者:Linyu Fan, Yingying Wang, Guoliang Hu, Feifei Li, Yuhang Dong, Hui Zheng, Changqing Lin, Yue Huang, and Xinghao Ding
机构:厦门大学、上海技术物理研究所等
代码链接:https://github.com/flyannie/DCFR-Net

摘要

红外小目标检测(ISDTD)在救援、监视和预警系统中发挥着关键作用。尽管现有方法取得了显著进展,但某些限制仍然阻碍了检测精度,包括高分辨率(HR)表示的不足、处理微弱目标的不足以及处理复杂背景下低对比度目标的困难。为了克服这些限制,我们提出了一种基于扩散的连续特征表示网络(DCFR-Net),包括两个关键分支:基于扩散的连续高分辨率特征表示(DCHFR)和ISDTD。具体来说,为了精确捕获极小目标轮廓,DCHFR将隐式神经表示(INR)集成到条件去噪扩散模型中,以自监督策略超分辨率红外目标。ISDTD利用DCHFR的共享编码器构建HR特征表示,该表示输入到多尺度隐式特征对齐(MIFA)和空间频率特征交互(SFFI)中。为了减轻微弱和易受攻击目标的影响,MIFA以无分辨率限制的方式细致地聚合不同层的特征。此外,为了增强红外目标与复杂背景之间的对比度,SFFI实现了深刻的SFFI和全局-局部接受域混合。在NUAA-SIRST、IRSTD-1k和NUDT-SIRST三个具有挑战性的数据集上进行的广泛实验表明,我们的DCFR-Net超越了最先进的(SOTA)方法,展示了我们方法在ISDTD中的优越性和鲁棒性。

关键词

  • 基于扩散的连续特征表示
  • 隐式特征对齐
  • 红外小目标检测(ISDTD)
  • 空间频率特征交互(SFFI)

引言

红外小目标检测(ISDTD)是民用、工业和军事领域适用的关键技术之一。在救援、监视和预警任务中,红外搜索和跟踪系统至关重要,这归功于其全天候感知能力、优越的空间分辨率、有效的隐蔽性和便携性。与可见光成像和主动雷达成像相比,依赖于热辐射的红外成像能够穿透环境障碍物,实现无干扰的被动成像。此外,长距离成像的非凡特性使得红外传感器能够在早期阶段检测到位置和速度未知的可疑目标,这有利于潜在威胁意识和采取适当的对策。相反,红外成像的优势为相应的红外目标检测带来了巨大的挑战。首先,随着距离的增加,红外辐射能量自然减小,导致远处投影目标通常很小且暗淡,缺乏特定的语义特征,如特定形状、清晰纹理和结构信息。其次,尽管红外成像可以穿透各种障碍物,但它产生了高度复杂的背景,充满了密集的森林、浓云或海洋杂波。这反过来降低了最初微小且暗淡的红外目标的对比度,使它们容易淹没在复杂且动态的背景中。此外,目标形状的干扰和高亮度像素噪声导致严重的误报,加上传感器固有的噪声,进一步加剧了红外小目标检测的难度。因此,设计具有灵活适应性以应对上述挑战的专用算法是一项重要任务。近几十年来,ISDTD领域出现了许多方法。在相关数据集有限的早期阶段,传统方法主要依赖于红外目标和特定场景的先验知识。这使得可以制定合理的假设并探索特征,如灰度、对比度和空间相关性。一般来说,传统方法可以分为三组:目标增强(TE)、背景抑制(BS)及其组合。尽管这些方法为特征提取提供了宝贵的见解,但它们在捕获高级语义时仍然面临挑战,通常过分强调局部信息。相反,随着更多数据集的公开可用性,基于深度学习的方法取得了显著进展。这些方法为ISDTD提供了自适应的语义和多尺度特征学习,无需手动特征工程。毫无疑问,以前的尝试已经取得了令人印象深刻的结果,但它们仍然有一定的局限性,如下所述。

A. 高分辨率(HR)表示的不足

大多数基于深度学习的方法通过逐渐减小特征图的大小来学习高级语义特征,导致不同程度的分辨率损失。随后,分辨率的损失对提取目标形状和细粒度细节产生了不利影响,这在ISDTD中至关重要。此外,学习HR特征表示使浅层网络能够捕获更细的目标细节和明显的目標边界,从而提高了红外小目标检测的精度。

B. 处理微弱目标的不足

现有方法,无论是旨在增强特征还是整合不同尺度的特征图,都在离散空间坐标内工作。显然,涉及的插值或采样过程不可避免地导致信息丢失,这对于已经有限特征信息的微弱和脆弱目标来说是特别不可接受的。然而,通过使用连续特征空间,输入图像可以被参数化为连续函数,适当地将空间分辨率与像素数量解耦。同时,可以合理地解决离散空间中丢失的模糊轮廓信息的问题,这对于实现高性能红外微弱目标检测至关重要。

C. 处理复杂背景下低对比度目标的困难

如何有效地将低级细节与高级语义对齐一直是解决低对比度目标和复杂背景问题的关键。提出了一个三部分密集嵌套注意力网络(DNA-Net),以实现逐步特征交互和自适应特征增强;设计了一个不对称上下文模块(ACM),以根据高级语义选择适当的低级特征。然而,这些方法以及类似特征交互方法在结合浅层空间特征与深层语义特征,或仅仅整合相邻特征时面临挑战,导致特征对齐不完整。此外,过多的局部上下文信息可能导致误报率上升。通过适当的交互同时整合全局和局部混合接受域,可以促进小目标的特征增强及其对比度信息。为了更有效地克服上述限制,我们提出了一种基于扩散的连续特征表示网络(DCFR-Net)用于ISDTD。我们的网络包括两个关键分支:基于扩散的连续高分辨率特征表示(DCHFR)和ISDTD。ISDTD还包括两个关键组件,包括多尺度隐式特征对齐(MIFA)和空间频率特征交互(SFFI)。首先,为了获得连续的HR特征表示,DCHFR将隐式神经表示(INR)集成到条件去噪扩散模型中,以自监督学习策略超分辨率红外小目标。具体来说,扩散模型巧妙地捕获了后续精确像素级检测所必需的精细上下文细节,同时通过整合INR确保在连续尺度范围内的高保真质量。自然地,ISDTD可以从共享编码器中提取红外小目标的相应高质量特征表示。其次,为了解决微弱目标并准确聚合不同层的特征,MIFA使学习的特征作为连续表示场,从而实现无分辨率限制的精细特征对齐。第三,为了解决复杂背景并增强红外目标与复杂背景之间的对比度,同时实现深刻的特征交互,SFFI利用空间频率双域的交互混合全局-局部接受域,进一步解决目标易受背景干扰的问题。总之,我们DCFR-Net的主要贡献可以总结为四点。1)为了解决红外目标的小尺寸特性并精确捕获目标轮廓,我们提出了创新的DCHFR,它将INR与条件去噪扩散模型无缝集成,以学习基于扩散的连续HR表示。2)为了减轻微弱目标的影响并获取细粒度细节,引入了MIFA模块以在连续域中对齐多层特征图。3)为了增强红外目标与复杂背景之间的对比度,设计了SFFI模块以通过空间频率双域交互整合全局-局部混合接受域。4)在三个具有挑战性的红外小目标数据集上进行的广泛实验表明,我们的DCFR-Net优于其他最先进的(SOTA)方法。

III. 方法

A. 网络结构

我们提出的DCFR-Net的整体架构如图1所示,包括两个分支:DCHFR和ISDTD。ISDTD作为主分支,包括两个关键模块:MIFA和SFFI。显然,我们的训练策略包括两个连续的阶段。在第一阶段,我们通过自监督学习方案训练DCHFR以获得红外目标的精细连续HR特征表示。DCHFR中的扩散模型与INR结合,动态地在现实细节和连续表示之间保持平衡。在第二阶段,我们将DCHFR的编码器冻结并与ISDTD共享。通过充分利用DCHFR的高质量特征表示,通过MIFA连续对齐多尺度特征图,并通过SFFI有效地整合全局和局部混合接受域,ISDTD显著提高了ISDTD的准确性和鲁棒性。

B. DCHFR分支

红外目标通常以其小尺寸和模糊的结构信息为特征,容易受到背景的干扰,这对目标检测提出了挑战。为了解决这些限制,DCHFR将INR无缝集成到条件去噪扩散模型中。对于捕获红外小目标的详细特征,扩散模型在生成微妙特征方面具有独特的优势。面对复杂的背景时,扩散模型巧妙地捕获了目标周围的空间关系,从而减少了干扰和杂波对目标检测的影响。此外,结合INR,DCHFR使得红外小目标的表示以连续的HR方式进行,不受网格分辨率的限制。具体来说,原始红外图像x作为HR样本h,通过四次双三次插值下采样获得相应的LR样本l,从而形成第一阶段的数据集。如图1所示,为了从LR输入l提取HR特征表示,并通过将l映射到h来实现超分辨率,DCHFR中的隐式去噪网络(IDN)旨在通过固定长度T的马尔可夫链近似数据分布p(h | l)的参数。这样,从纯噪声图像hT ∼ N(0, I)开始,IDN可以逐步根据学习的条件分布pθ(h−1 | lt, l)细化输出图像,最终得到HR图像h0 ∼ p(h | l)。按照SR3,定义了一个前向马尔可夫扩散过程q,通过迭代地向h0添加高斯噪声,如下所示:
其中, 决定了每次迭代添加的高斯噪声的方差。给定h0,ht的分布可以直接表示为
其中, 。在逆扩散过程中,可以执行一个反向马尔可夫过程:
同时,IDN采用了遵循去噪扩散概率模型的U-Net架构,以在训练期间顺序去噪潜在特征。受LIIF的启发,首先使用SR编码器Esr从LR图像l建立初始条件引导特征g0。Esr中的双线性插值使g0的分辨率与hT相同。然后,将g0与hT连接生成f0,然后输入N层U-Net的编码路径,逐步获取下采样特征{f_d 1, f_d 2, ..., f_d N}。同时,g0独立发送到N个卷积层,每个卷积层都涉及双线性下采样和leaky ReLU激活。卷积编码后,得到多个分辨率特征{g1, g2, ..., gN},以指导网络在建模潜在表示时:
其中,i ∈ {2, 3, ..., N}表示IDN的深度,f_d i和f_u i分别表示U-Net的解码器和编码器的特征图。因此,调制结果mi携带了详细的控制信息,使得在连续域中提取细粒度和HR特征的性能更优越。此外,为了实现连续特征而不是离散特征,我们在U-Net的解码路径中插入了N − 1个基于坐标的INR。INR中的隐式神经函数定义了一个函数Dθ,它在离散特征图上操作以获得连续特征图。如图1所示,考虑到离散特征图mi,可以将特征向量解释为参考2-D坐标ci上均匀分布的潜在代码z∗ i的潜代码。要查询HR特征值,隐式表示过程被制定为:
其中,i ∈ {1, 2, ..., N − 1},Dθ包含两个具有256隐藏维度的多层感知器,z∗ i+1是通过计算从mi+1最近的欧几里得距离来插值的,c∗ i+1是图像域中潜在代码z∗ +1的坐标。如先前研究所讨论的,尽管神经网络被视为通用函数逼近器,它们倾向于偏爱低频信号,对高频信号的敏感性较低。因此,直接在2-D坐标上操作可能会限制它们的学习能力。为了解决这个限制,我们使用位置编码函数ψ(·)在将这些坐标输入INR之前对其进行编码:
其中,频率ωk初始化为ωk = 2ek,k ∈ {1, 2, ..., K},然后在训练阶段进一步微调。2-D坐标将通过(9)扩展到2K维编码。因此,Dθ的最终定义是:
与(8)相比,将额外的位置编码输入到隐式神经函数Dθ中。按照这些步骤,DCHFR成功地将迭代扩散细化过程和隐式图像函数整合到一个统一的框架中,以连续的HR方式实现红外图像的特征表示。

C. ISDTD分支

在第二训练阶段,DCHFR中的SR编码器Esr被冻结,并与ISDTD共享,以从原始红外图像x中提取初始连续HR特征G0。同样,为了利用扩散模型捕获精细上下文细节的能力,我们保留了DCHFR中的N个条件引导卷积层和U-Net的编码路径,并在DCHFR的初始参数上训练ISDTD。通过N个条件引导卷积层产生多个分辨率特征{G1, G2, ..., GN},并通过将红外图像x直接输入U-Net的下采样网络获得{F1, F2, ..., FN}。与DCHFR的轻微区别在于,在每一层Fi都与Gi连接得到Mi。为了解决红外目标的微弱和脆弱特性并捕获细粒度细节,连接的特征{M1, M2, ..., MN}也将被送入MIFA,后者采用连续方法精确对齐并聚合来自不同层的特征。此外,为了捕获细粒度细节并增强目标与背景之间的对比度,我们引入了SFFI,通过空间频率双域交互整合全局和局部混合接受域。这两个模块的具体实现细节将如下所示。1)多尺度隐式特征对齐:为了实现多尺度特征图的精确对齐,一个有效的方法是使用隐式特征函数将多层离散特征图转换并对齐到连续的。因此,我们实现了一个具有一个多层感知器的隐式神经函数Daθ用于对齐过程。如图2所示,为了对齐来自N层的离散特征图{Mi}Ni=1,我们首先将它们输入到一个1×1的卷积中。接下来,给定Mi中任意查询坐标Ci,我们可以获得其最近的潜在代码Z∗i及其对应的坐标C∗i。为了实现特征对齐,我们使用同一层内的坐标差来获得相对坐标,表示为Ci − C∗i。之后,其位置编码ψ(Ci − C∗i)可以直接从(9)中得出。在将其输入到Daθ之前,我们将每个层的所有潜在代码作为Z∗,所有相对坐标作为C − C∗,以及所有位置编码作为ψ(C − C∗)分别连接。因此,我们可以将连续特征图M公式化为:
直观地说,Daθ可以解码每个层的场,同时在每层之间建立交互。更具体地说,关于输出分辨率,M可以通过独立且并行地查询每个像素位置来构建。最后,MIFA以不受分辨率限制的方式促进特征对齐,并允许映射到任意分辨率,为解决极其微弱和脆弱的红外目标的挑战提供了连续域中的新解决方案。
2)空间频率特征交互:虽然连续的HR特征表示和隐式特征对齐减轻了小目标问题,但固有的弱点和对复杂背景干扰的敏感性仍然阻碍了ISDTD的实际性能。为了进一步解决这些问题,我们提出了SFFI,它通过空间频率双域交互混合全局-局部接受域来解决复杂背景问题并增强红外目标与背景之间的对比度。如前所述关于快速傅里叶卷积,傅里叶理论中的频谱卷积定理表明,在频率域中修改一个点对所有输入特征施加全局影响,从而便于实现非局部接受域。因此,SFFI利用快速傅里叶卷积,结合图像范围的接受域,以及通过空间域和频率域之间的交互整合全局和局部混合接受域。此外,利用其强大的交互性,SFFI可以将低级细节与高级上下文信息结合起来。如图3所示,我们首先将连续特征图M沿特征通道维度分割成全局部分Mg和局部部分Ml。为了实现实际的交互过程,SFFI包括四个不同的子分支:全局到全局Bg→g、全局到局部Bg→、局部到全局Bl→g和局部到局部Bl→l。更具体地说,Bg→g利用傅里叶变换来扩大接受域并捕获广泛的上下文信息,而Bl→g利用非局部注意力机制来探索每个查询像素与其周围部分的全局依赖性。此外,Bg→l和Bl→l都通过操作O(·)捕获局部特征,该操作由3×3卷积和leaky ReLU激活组成。上述程序也可以表示如下:
其中,ST表示频谱变换,NL是非局部注意力机制。此外,图3详细描述了频谱变换,它使用傅里叶变换将空间特征高效地转换到频率域,包括信号的实部Re(Mg)和虚部Im(Mg):
在此转换之后,执行操作O(·),然后将数据恢复到空间域,使用逆快速傅里叶变换(IFFT)F−1:
此外,局部到全局映射利用非局部注意力模块探索每个查询像素的全局依赖性。如图3所示,非局部注意力机制采用残差变换学习和上下文机制,通过从不同位置的特征聚合,在各个查询位置生成空间图。这些注意力系数在与输入特征相乘后,传递到一个变换模块以获得每个空间位置的残差特征。之后,我们可以获得交互的全局特征 ,通过加上Bg→g和Bl→g,以及交互的局部特征 ,通过加上B→l和Bg→l:
最后,我们连接 ,生成增强特征 ,它通过由1×1卷积和sigmoid层组成的检测头Dhead传递以生成最终检测结果:

D. 损失函数

在第一阶段,DCHFR旨在通过一系列去噪步骤推断HR图像h0,这相当于从噪声图像






请到「今天看啥」查看全文