本文提出了 FC-Former,一种基于全连接自注意力机制的多源图像融合方法。
Fully-Connected Transformer for Multi-Source Image Fusion
-
作者: Xiao Wu, Zi-Han Cao, Ting-Zhu Huang, Liang-Jian Deng, Jocelyn Chanussot, Gemine Vivone
-
作者单位:
-
School of Mathematical Sciences, University of Electronic Science and Technology of China
-
Inria, CNRS, Grenoble INP, Université Grenoble Alpes
-
Institute of Methodologies for Environmental Analysis, CNR-IMAA
-
论文链接: https://doi.org/10.1109/TPAMI.2024.3523364
-
代码链接: https://github.com/XiaoXiao-Woo/FC-Former
简介
本文提出了 FC-Former,一种基于全连接自注意力机制的多源图像融合方法。现有的自注意力方法往往仅在特定维度上执行信息整合,无法有效捕捉跨尺度和跨域的关系。FC-Former基于广义自注意力机制,采用全连接自注意力框架(FCSA)来充分利用来自多分辨率输入图像的空间和通道信息。该框架有效克服了现有方法在多维度信息融合中的局限,能够在不同分辨率和模态下获取更加丰富的特征信息。实验结果表明,FC-Former在多种图像融合任务中优于现有的最先进方法,具有更高的准确性和效率。
研究动机
现状
-
传统方法:早期的多源图像融合方法大多依赖于卷积神经网络(CNN)或基于优化的模型,虽有一定效果,但在跨尺度特征和非局部特征的捕捉上存在局限性。
-
现有自注意力方法:现有的自注意力方法大多集中于局部信息处理,并且在处理不同尺度和模态之间的关系时效率不高。
图1 沿空间或通道模式自注意力的当前现有形式。它们是通过矩阵乘法构建的,以一种模式连接所有其他元素。
关键问题
-
现有方法不能同时捕捉多尺度和跨域的信息,导致信息丢失或融合效果较差。
-
自注意力机制在多分辨率和跨尺度特征融合中的应用未被充分探索。
图2. 现有的自注意力机制与基于所提出的广义自注意力方案的全连接自注意力框架的比较。
论文贡献
-
提出了广义自注意力机制,将现有的自注意力形式统一并推广。
-
开发了全连接自注意力(FCSA)框架,能够捕捉跨尺度和尺度内的模式,以及局部和非局部的相似性。
-
提出了全连接Transformer网络(FC-Former),通过FCSA框架和多源图像表示模块,实现了对多源图像融合任务的统一处理。
-
在多个图像融合任务(如MHIF、VIS-IR、遥感图像融合等)上进行了广泛的实验,证明了FC-Former在性能和效率上的优越性。
FC-Former模型
FC-Former使用全连接自注意力框架(FCSA)来处理多源图像融合任务。其核心思想是通过广义自注意力机制来捕捉图像中跨尺度、跨域的特征关系,并通过多分支设计处理不同分辨率的图像输入。
图6. FC-Former的整体结构。蓝色框代表网络阶段,黄色部分表示图5所示的FCSA方法。
FC-Former网络由三个并行分支组成:高分辨率(HR)分支、中分辨率(MR)分支和低分辨率(LR)分支。每个分支通过多源图像表示模块和残差块进行特征提取和融合。最终,网络通过监督和无监督任务进行训练。
广义自注意力机制
广义自注意力机制通过多线性代数扩展了现有的自注意力形式。给定输入张量
,自注意力机制可以表示为:
其中
是可学习参数,
是输出特征。
图 4. 定义 3 中批量张量积的图形说明。此外,我们根据所提出的定义提出了空间自注意力。定义 1 中的张量分块优先于批量模式 k 展开。
全连接自注意力框架(FCSA)
FCSA框架通过跨尺度和尺度内的自注意力机制,将不同分辨率的特征图进行传递和整合。具体来说,FCSA框架通过以下步骤实现:
-
对高分辨率(HR)、中分辨率(MR)和低分辨率(LR)特征图分别进行自注意力计算。
-
通过跨尺度自注意力机制,将低分辨率特征图的信息传递到高分辨率特征图中。
-
最终,通过多源图像表示模块,将不同分辨率的特征图进行融合。
图 5. FCSA 框架说明。所提出的 FCSA 框架统一了几种自注意力机制,并包括它们相应的多线性乘积表示。FCSA 框架可以促进不同来源图像内和图像之间的局部和非局部先验信息的融合。请注意,FCSA 的第 2 阶段和第 3 阶段仅作了简单绘制,不会影响所需的张量格式。
多源图像表示模块
多源图像表示模块通过动态分支融合(DBF)和模型引导分支融合(MBF)两种策略,将不同源的特征图进行融合。具体来说:
-
动态分支融合(DBF): 对不同分辨率的特征图进行加权融合。
-
模型引导分支融合(MBF): 通过线性观测模型,将物理约束引入融合过程。
实验结果
多光谱和高光谱图像融合(MHIF)
在CAVE和Harvard数据集上进行了实验,结果表明FC-Former在4倍和8倍缩放因子下均取得了最佳性能,尤其是在细节和颜色准确性方面表现优异。
可见光和红外图像融合(VIS-IR)
在TNO和RoadScene数据集上进行了实验,FC-Former在PSNR、SSIM、LPIPS等指标上均取得了最佳或接近最佳的性能,证明了其在保留细节和避免伪影方面的优越性。
遥感图像融合
在PanCollection数据集上进行了实验,FC-Former在空间和光谱质量指标上均表现出色,尤其是在全分辨率数据上的HQNR指标上取得了最佳结果。
讨论与消融实验
通过对FCSA框架和不同窗口大小的空间多头自注意力(Spa-MSA)进行消融实验,证明了FCSA框架在提升融合性能方面的有效性。
编辑:王菁
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:
数据派THU
今日头条:
数据派THU