点击上方
“
小白学视觉
”,选择加"
星标
"或“
置顶
”
重磅干货,第一时间送达
![](http://mmbiz.qpic.cn/mmbiz_jpg/ow6przZuPIENb0m5iawutIf90N2Ub3dcPuP2KXHJvaR1Fv2FnicTuOy3KcHuIEJbd9lUyOibeXqW8tEhoJGL98qOw/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&random=0.1499810738060161&random=0.09820940063934369&random=0.8483883030521346&random=0.8331344815520132&random=0.07963800761374373&random=0.7067841803163701&random=0.6642845182304258&random=0.007565987734644342&random=0.6514558430267612&random=0.10519080087429211&random=0.982719167481892&random=0.4226674093107132&random=0.5357576062891651&random=0.7563694611592955&random=0.25210444679853405&random=0.7598717714726546&random=0.6268901744720807&random=0.7131933810894322&random=0.8473212130097401&random=0.544669908341695&random=0.07000157462201617&random=0.047534882932725786&random=0.22939956891651914&random=0.8099351543953781&random=0.3109209082205502&random=0.23114920243670034&random=0.01473816429403385&random=0.5468937432611247&random=0.340020762691043&tp=webp)
A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration
深度学习框架在无需严格配准的红外与可见光图像融合中的应用
Huafeng Li; Junyu Liu; Yafei Zhang; Yu Liu
摘要
近年来,尽管在红外和可见光图像融合方面取得了显著进展,但现有方法通常假设源图像在图像融合之前已经经过了严格的配准或对齐。然而,红外和可见光图像的模态差异对自动实现严格对齐构成了巨大挑战,影响了后续融合过程的质量。为了解决这个问题,本文提出了一个用于未对齐红外和可见光图像融合的深度学习框架,旨在使融合算法摆脱严格配准的束缚。从技术上讲,我们设计了一个卷积神经网络(CNN)-Transformer分层交互嵌入(CTHIE)模块,它可以结合CNN和Transformer各自的优势,从源图像中提取特征。此外,通过表征未对齐源图像提取的特征之间的相关性,设计了一个动态重聚合特征表示(DRFR)模块,以基于自注意力的特征重聚合方案对齐特征。最后,为了有效利用网络不同层次的特征,引入了一个全感知前馈融合(FPFF)模块,通过多模态特征的交互传输进行特征融合,以重建融合图像。在合成和真实世界数据上的实验结果证明了所提出方法的有效性,验证了在没有严格配准的情况下直接融合红外和可见光图像的可行性。
关键词
红外和可见光图像融合,未对齐,卷积神经网络,Transformer
1 引言
红外传感器捕获物体的热辐射进行成像,在像浓雾和低照明这样的恶劣光照条件下,它们能有效地检测热目标。然而,由于空间细节的丢失,红外图像通常受视觉质量低下的困扰。相反,可见光传感器可以捕获丰富的空间细节,但对光照条件更为敏感。为了利用这两种传感器的互补性,引入了红外和可见光图像融合技术。它可以将两种模态传感器捕获的信息合成到单个图像中,为人类或机器感知提供更多信息。许多计算机视觉任务,如目标检测、面部识别和视频监控,都从这项技术中受益。随着图像处理和深度学习社区的快速发展,红外和可见光图像融合取得了巨大进展。具体来说,Liu等人首次将卷积神经网络(CNN)引入图像融合领域,开启了深度学习在图像融合中的应用。Ma等人将生成对抗网络(GAN)引入图像融合,并提出了一个称为FusionGAN的基于GAN的红外和可见光图像融合框架。随后,Xu等人和Ma等人提出了包括红外和可见光图像在内的多源图像融合的统一框架。Li等人提出了一种基于元学习的融合方法,可以融合任意不同分辨率的红外和可见光图像,打破了源图像应具有相同分辨率的常见约束。通过将图像融合与语义分割相结合,Tang等人提出了一种由高级视觉任务指导的红外和可见光图像融合技术。Xiao等人将红外和可见光图像融合和超分辨率整合到一个框架中,可以联合实现融合和超分辨率。尽管上述方法可以获得高质量的融合结果,但前提是源图像应该事先经过严格配准,否则它们的性能将严重下降。然而,在实际情况中,尽管源图像可以通过仔细调整红外和可见光传感器的安装位置在一定程度上对齐,但通过手动安装直接实现准确对齐实际上是不可能的。图像配准技术可以用来解决这个问题。然而,对于红外和可见光图像来说,由于模态特征的显著差异,自动实现准确的配准相当具有挑战性。因此,开发在非严格对齐情况下仍然有效的融合方法具有重要意义。图1提供了使用最新红外和可见光图像配准方法HAPCG对未精确对齐的源图像及其配准版本进行图像融合的示例。图1a和b显示了原始大致对齐的源图像,我们可以看到它们之间存在明显的不对齐。图1c和d显示了通过HAPCG方法获得的配准结果。可以看出,在这种情况下,配准结果并不是很准确,这实际上反映了当前自动红外和可见光图像配准方法的鲁棒性能的困难。图1e-g显示了使用原始大致对齐的源图像的不同方法获得的融合结果。可以观察到由于不对齐在这些融合图像中引起的明显伪影。图1i-k显示了使用配准源图像的这三种方法的融合结果。由于配准的不准确性,融合结果仍然受到严重伪影的影响,如放大所示。为了提高图像融合算法的可用性,本文专注于未严格配准的红外和可见光图像融合。考虑到自动实现准确配准结果的困难,一个有吸引力的解决方案是直接融合未精确对齐的图像,而不参与图像配准算法。尽管它具有实际意义,但在没有准确配准的情况下有效避免不对齐对融合结果的影响在这一过程中极其具有挑战性。为此,本文提出了一种有效的无需准确配准的红外和可见光图像融合方法。该方法的核心思想是将源图像特征的空间对齐嵌入到特征提取过程中,以克服不对齐问题。通过使特征提取网络根据源图像之间的潜在对应关系动态调整其过程,红外和可见光图像特征可以在特征提取过程中对齐。这样,图像融合算法不再受源图像准确配准的限制,这可以有效地促进图像融合在真实场景中的应用。图1h显示了使用原始大致对齐的源图像直接获得的融合结果。我们的方法可以有效地抑制不对齐的影响,并获得明显比其他融合方法更好的结果。具体来说,所提出的融合框架主要由三个模块组成:CNN-Transformer分层交互嵌入(CTHIE)模块,动态重聚合特征表示(DRFR)模块和全感知前馈融合(FPFF)模块。鉴于CNN在提取图像局部细节方面是有效的,而Transformer擅长表征特征之间的长距离相关性,我们设计了CTHIE模块进行特征提取,结合了CNN和Transformer的互补优势。DRFR模块旨在通过描述未对齐特征之间的相关性并通过受Transformer启发的自注意力机制重聚合特征,在我们的融合框架中动态对齐特征。FPFF模块通过不同抽象级别的交互传输融合对齐的多源特征,并重建融合图像。为了有效地训练网络,我们在训练阶段为注册图像引入了一个额外的特征提取分支。注册源图像的中间特征和最终融合结果被用作未对齐图像融合的监督。所提出方法的有效性在合成和真实世界数据集上得到了证明。本文的主要贡献总结如下:
-
我们考虑了一个更普遍和实际的红外和可见光图像融合问题,其中源图像未严格对齐。为此,我们提出了一个新的深度学习框架,用于未对齐的红外和可见光图像融合,通过将源图像特征的空间对齐嵌入到特征提取过程中。
-
为了更有效地从源图像中提取特征,我们设计了一个CNN-Transformer分层交互嵌入(CTHIE)模块,它可以结合CNN和Transformer各自的优势。
-
为了解决源图像的不对齐问题,我们提出了一个动态重聚合特征表示(DRFR)模块,通过表征未对齐特征之间的相关性并使用自注意力机制重聚合特征,在我们的融合框架中动态对齐特征。
-
为了保留源图像中包含的更多细节信息,我们引入了一个全感知前馈融合(FPFF)模块,通过不同级别的多模态特征的交互传输进行特征融合。
本文的其余部分组织如下。第2节介绍相关工作,包括红外和可见光图像融合和视觉Transformer。第3节详细描述了所提出的方法。实验结果和讨论在第4节给出。第5节得出结论。
2 相关工作
2.1 红外-可见光图像融合
红外和可见光图像融合是图像处理社区的一个重要话题。传统上,多尺度变换和稀疏表示是常用的方法。在过去的几年中,由于其在模式分类和识别中的卓越性能,深度学习已成为最受欢迎的方法。特别是,Li和Wu在编码过程中使用密集块,结合浅层和深层特征从源图像中提取更丰富的信息,称为DenseFuse。在FusionGAN之后,Ma等人通过增强框架来维护图像细节,并提出了DDcGAN以保护细节和边缘信息。此外,为了更好地保护源图像的边缘细节,Zhao等人使用不同的编码器分别从源图像中提取高频细节信息和低频信息。Li等人在网络的残差结构内提出了一个两阶段训练策略,同时使用细节保持损失函数和特征增强损失函数来确保融合结果中的适当细节和重要信息。Zhang和Ma提出了一个通用的挤压和分解网络,用于实时图像融合。最近,Xu等人、Wang等人、Tang等人和Xu等人尝试将配准纳入融合过程,旨在通过多任务方式同时实现配准和融合。尽管最近在这一领域取得了巨大进展,但大多数现有融合方法都遵循一个共同的假设,即要融合的源图像已经被严格配准。否则,它们的性能将严重下降,并在融合图像中引入严重的伪影。然而,由于模态特征的显著差异,为红外和可见光图像实现准确的配准非常困难,而配准不准确肯定会影响后续的融合性能。此外,逐步过程(即配准和融合)也可能对实际应用造成不便。在统一模型中实现配准和融合的方法可以解决上述问题。然而,多任务模型的训练通常比较复杂和繁琐。在本文中,我们尝试为未对齐的红外和可见光图像融合问题提供一种新的解决方案。源图像特征的对齐嵌入到特征提取过程中。通过这种方式,源图像可以直接融合而不需要严格配准,并且提出的融合模型中也没有显式的配准过程。
2.2 视觉Transformer
Transformer由Vaswani等人提出,用于机器翻译。由于它从全局层面提取特征并且可以有效地描述不同位置特征之间的相关性,因此吸引了研究者的注意。在2021年,研究者在将Transformer引入计算机视觉任务方面取得了巨大成功,开启了Transformer在图像处理、目标检测、语义分割、目标跟踪等多个计算机视觉任务中的应用。Dosovitskiy等人首次将Transformer引入图像分类任务,提出了视觉Transformer(ViT),为Transformer在计算机视觉任务中的应用提供了可行的技术解决方案。基于ViT,研究者提出了一系列ViT变体来提高其性能。特别是,Han等人通过将图像块划分为多个子块,并引入新的Transformer-in-Transformer结构,实现了图像块的全局建模和局部建模,缓解了ViTs对图像块缺乏局部建模能力的问题。Liu等人提出了分层Swin Transformer,采用移位窗口操作来解决Transformer中全局自注意力的大计算量问题。在图像融合领域,Vs等人提出了一种基于Transformer的红外和可见光图像融合方法。该方法使用Transformer的编码器提取图像特征,通过Spatial-Transformer获得融合特征,并最终通过Transformer的解码器重建融合图像。由于Transformer具有更强的建模长距离依赖的能力,因此适合提取全局图像特征。相比之下,CNN更适合提取局部图像特征,因为它通过卷积核提取图像特征,其感受野是有限的。同时,CNN擅长描述低级视觉特征,如图像结构和纹理,而Transformer更擅长阐述不同特征之间的相关性,并在视觉语义信息表示方面表现更好。为了整合它们的优势,如图2a所示,Carion等人提出在第一个Transformer层之前添加卷积(Conv)层。在图2b中,Wu等人提出在Transformer的局部标记的重塑特征图上进行卷积操作,并将不同Conv层通过的平坦化特征图视为Transformer多头自注意力中的Key、Query和Value。同样,Yuan等人提出在线性投影后对补丁标记进行空间恢复,并将恢复结果通过深度卷积,从而实现CNN和Transformer的联合特征提取。Srinivas等人用自注意力层替换了ResNet中最后三个3×3卷积层,以避免ResNet在提取全局特征方面的不足。尽管上述方法有效,但CNN和Transformer是交替串行操作的,即在Transformer(CNN)之后用CNN(Transformer)提取特征,依次整合它们的优势。此外,这些交替串行方法不能聚合由CNN和Transformer提取的特征,导致它们无法有效地综合语义和低级视觉特征。图2c将CNN特征和Transformer特征连接起来,并将它们输入到下一个Transformer层中以聚合特征。与上述方法不同,我们使用两个并行的特征提取分支CNN和Transformer,并在不同的网络级别上交互嵌入它们提取的特征,以整合它们的优势。与图2c所示的方案相比,我们的方法(如图2d所示)可以更有效地在不同的图像层次上整合语义和视觉特征。
3 提出的方法
3.1 概述
所提出方法的框架如图3所示,主要由三个模块组成:CTHIE、DRFR和FPFF。CTHIE模块分层交互地嵌入CNN和Transformer,整合了两种特征提取框架的优势。CTHIE网络有两个分支。图3中红点虚线框内的部分主要用于提取注册图像对的特征,而另一个主要用于提取未严格注册的图像对的特征。DRFR模块通过特征重聚合实现了未严格注册的图像特征的对齐。FPFF模块主要用于融合源图像的分层特征并重建融合图像。
3.2 CTHIE模块
如图3所示,CTHIE模块主要由CNN嵌入式Transformer块(CETB)和Conv层组成。在CTHIE模块前嵌入一个基于Conv层的特征提取块(FEB-CL),以获取多通道的特征图,为后续Transformer的特征提取提供便利。我们在CETB和Conv层的多个级别之间交互信息,并将由Conv层提取的特征输入到CETB,同时将由CETB提取的特征反馈到下一个Conv层。同时,不同级别的CETB和Conv层之间存在跳跃连接。具体来说,我们首先使用FEB-CL提取输入图像(
,
)和(
,
)的特征,以支持CETB和Conv层的后续特征提取。由FEB-CL输出的(
,
)和(
,
)的特征可以表示为
其中
分别表示图3中红点虚线框内/外的FEB-CL的特征提取操作,
,
表示输入图像是
,
和
。在本文中,FEB-CL由三个3×3卷积层和一个ReLU激活函数层组成。在CETB分支上,(
,
),(
,
)首先输入到Transformer层以挖掘和嵌入局部标记的相关性,得到特征(
,
),(
,
):
其中
和
分别表示图3中CTHIE的上部和下部的Transformer层的特征提取操作。在这个过程中,我们不需要像ViT那样将输入源图像划分为小块以获得局部标记,而是通过FEB-CL获得多通道的特征图。同一位置不同通道上的特征向量组成了输入Transformer的局部标记。对于图3中下部CTHIE的CETB,其网络结构如图4所示。具体来说,它主要由层归一化(LN)、多头自注意力层(MSA)、特征交互块(FIB)和两个跳跃连接组成。对于第一个(即,i = 1)CETB,输入是
和
,其中
是第一个Conv层的输出。请注意,有两个
作为第一个CETB的输入:一个输入到第一个LN,另一个作为
输入到FIB。对于第i个(i ≥ 2)CETB,设
是第(i − 1)个CETB的输出,第一个跳跃连接后的输出表示为
其中
表示由LN和MSA组成的特征提取器。为了整合CNN和Transformer的优势,我们在Transformer层内嵌入了FIB。如图4所示,FIB主要由特征连接、Conv层和跳跃连接组成。它的输入包
,第(i − 1)个CETB的FIB输出特征
和第i个卷积特征提取网络的输出特征
。在第i个CETB中,FIB的输出特征
可以表示为
其中
是FIB的特征提取操作。第i个CETB的最终输出
可以表示为
其中
是由
和
组成的特征提取器。对于图3中上部CTHIE的CETB,其结构与下部相同。图3中使用的Conv层结构如图5所示。它由三个卷积和三个ReLU激活函数以及连接操作和1×1 Conv层组成。不同尺度的Conv层和ReLU是跳跃连接的。对于下部CTHIE的第一个(即,i = 1)Conv层,输入是
,对于第i个(i ≥ 2)Conv层,输入特征是前一个Conv层和CETB的输出
和
的连接。经过第i个Conv层的结果是
其中f conv表示Conv层的特征提取操作。在CTHIE模块中,我们在不同级别上交互由CNN和Transformer提取的特征,有效地整合了Transformer和CNN在提取特征方面的各自优势,促进了特征对图像的表示能力。图3中上部CTHIE的Conv层的计算过程与下部相同。
3.3 DRFR模块
不引入配准操作,如何抑制由于源图像未严格对齐而在融合结果中引入的伪影是未严格对齐图像融合的关键。众所周知,Transformer中的注意力机制通过线性组合局部标记来获得类别标记。如果我们使用这个原理,红外图像中位置(x, y)处的特征向量可以被视为其邻域内(如图6所示)特征向量的线性组合,并且分配一个更大的权重给在可见图像中位于(x, y)处的红外图像特征向量,可以有效地减轻不对齐对融合结果的影响。基于上述考虑,我们开发了DRFR。它在局部区域内调节多头自注意力,可以根据不同输入源图像之间的潜在相关性动态调整注意力权重,使得每个通道上相同位置处由特征组成的特征向量可以动态地由局部区域内的特征向量表示,以减轻不对齐对融合结果的影响。本文提出的DRFR如图7所示。它主要由两个模块组成:特征调制和重聚合,其中特征调制主要基于输入的多源图像特征,生成可以描述源图像之间相应空间关系的参数,并使用这些参数调整CETB输出的未对齐红外图像特征,使其与CETB输出的可见图像特征对齐。如图7所示,在DRFR中,我们通过双分支关系预测网络来描述两幅图像特征之间的空间关系,该网络主要由两个小型CNN组成。一个分支产生缩放图像特征的参数γ,另一个用于产生平移图像特征的参数β。前者主要由Conv层、激活函数和跳跃连接组成,而后者主要由Conv层组成。获得调制参数(γ, β)后,它们可以用来调制CETB的输出特征
,以进行后续的特征对齐。在DRFR中,我们假设
是第i个CETB的输出。
经过多尺度Conv层、连接和卷积操作的结果,表示为
,其中H、W和C(C = 64在我们的方法中)分别代表特征图
的高度、宽度和通道数。通过参数(γ, β)调制的特征
可以表示为
其中⊙表示点积。由于(γ, β)中嵌入了潜在的空间相关性,因此可以根据(γ, β)调整由CETB输出的特征
,为后续的红外图像和可见光图像特征对齐提供更大的控制空间。事实上,公式(7)利用了仿射变换理论,该理论在图像处理中广泛使用。在我们的方法中,我们使用这个理论来调制图像特征以进行对齐。如果没有公式(7),对齐的性能将完全依赖于后续的全连接(FC)层,这对FC层的要求更高,不利于特征的对齐。通过参数(γ, β)调制的特征
通过FC层传递,以生成调制多头注意力的参数,以对齐未对齐的红外和可见光图像特征。类似于Transformer中的多头自注意力,输入的未对齐红外图像特征
通过卷积和线性投影分别生成Query
,Key
和Value
。在Transformer中,多头自注意力基于Query
和Key
之间的可学习关联,然后进行归一化。多头自注意力的输出是
的加权和,本文称之为重聚合特征表示:
其中
,
是头数,T表示
的转置。本文解决未对齐源图像对融合结果影响的主要思想是通过控制每个特征向量在
中的权重来重新聚合特征。具体来说,在将红外图像特征对齐到可见图像特征的过程中,我们希望与红外图像匹配的特征被赋予更大的权重,以便重聚合的特征与可见图像特征对齐。然而,红外图像特征相对于可见图像特征的空间位置偏移是相对的。在没有可见图像特征的情况下,通常很难从红外图像的特征中学习偏移信息。公式(8)中的自注意力仅与单个输入图像相关,因此不能用于动态调整特征聚合以实现源图像特征的对齐。由于经过参数调制(γ, β)的特征¯
嵌入了两个源图像的信息,因此可以用来调节多头自注意力的参数并实现动态重聚合特征表示。如图7所示,重聚合特征表示可以表示为
其中FC(·)表示FC层,
是经过注意力调制与可见图像特征
对齐的特征。
3.4 FPFF模块
浅层特征通常包含更丰富的纹理和边缘细节,而深层特征包含更多高级语义信息。如果我们直接融合相应层次的图像特征,一些有用的信息在过程中将不可避免地丢失。为了避免这个问题,受到(Yi等人,2021)工作的启发,我们在特征融合方案中嵌入了一个全感知机制,通过CNN基特征调制网络后的交互式和前向机制在不同网络层次上实现特征整合。在这个过程中,特征调制网络主要用于在重建融合图像时增强弱边缘细节和纹理特征的作用。
具体来说,FPFF模块的架构如图8所示。对于第一个FEB,
的输入是
和
,
的输入是
,
,
和
。对于
(i ≥ 2),它采用CETB输出的
的
(i = 2, 3, ..., n)和DRFR输出的
(i = 2, 3, ..., n)作为输入。
的输出结果可以计算为
其中
表示
对可见(红外)图像特征调制。
是
对可见(红外)图像的输出。最后,
的两个输出结果