本文提出了 FC-Former,一种基于全连接自注意力机制的多源图像融合方法。
Fully-Connected Transformer for Multi-Source Image Fusion
-
作者: Xiao Wu, Zi-Han Cao, Ting-Zhu Huang, Liang-Jian Deng, Jocelyn Chanussot, Gemine Vivone
-
作者单位:
-
School of Mathematical Sciences, University of Electronic Science and Technology of China
-
Inria, CNRS, Grenoble INP, Université Grenoble Alpes
-
Institute of Methodologies for Environmental Analysis, CNR-IMAA
-
论文链接: https://doi.org/10.1109/TPAMI.2024.3523364
-
代码链接: https://github.com/XiaoXiao-Woo/FC-Former
简介
本文提出了 FC-Former,一种基于全连接自注意力机制的多源图像融合方法。现有的自注意力方法往往仅在特定维度上执行信息整合,无法有效捕捉跨尺度和跨域的关系。FC-Former基于广义自注意力机制,采用全连接自注意力框架(FCSA)来充分利用来自多分辨率输入图像的空间和通道信息。该框架有效克服了现有方法在多维度信息融合中的局限,能够在不同分辨率和模态下获取更加丰富的特征信息。实验结果表明,FC-Former在多种图像融合任务中优于现有的最先进方法,具有更高的准确性和效率。
研究动机
现状
-
传统方法:早期的多源图像融合方法大多依赖于卷积神经网络(CNN)或基于优化的模型,虽有一定效果,但在跨尺度特征和非局部特征的捕捉上存在局限性。
-
现有自注意力方法:现有的自注意力方法大多集中于局部信息处理,并且在处理不同尺度和模态之间的关系时效率不高。
图1 沿空间或通道模式自注意力的当前现有形式。它们是通过矩阵乘法构建的,以一种模式连接所有其他元素。
关键问题
-
现有方法不能同时捕捉多尺度和跨域的信息,导致信息丢失或融合效果较差。
-
自注意力机制在多分辨率和跨尺度特征融合中的应用未被充分探索。
图2. 现有的自注意力机制与基于所提出的广义自注意力方案的全连接自注意力框架的比较。
论文贡献
-
提出了广义自注意力机制,将现有的自注意力形式统一并推广。
-
开发了全连接自注意力(FCSA)框架,能够捕捉跨尺度和尺度内的模式,以及局部和非局部的相似性。
-
提出了全连接Transformer网络(FC-Former),通过FCSA框架和多源图像表示模块,实现了对多源图像融合任务的统一处理。
-
在多个图像融合任务(如MHIF、VIS-IR、遥感图像融合等)上进行了广泛的实验,证明了FC-Former在性能和效率上的优越性。
FC-Former模型
FC-Former使用全连接自注意力框架(FCSA)来处理多源图像融合任务。其核心思想是通过广义自注意力机制来捕捉图像中跨尺度、跨域的特征关系,并通过多分支设计处理不同分辨率的图像输入。
图6. FC-Former的整体结构。蓝色框代表网络阶段,黄色部分表示图5所示的FCSA方法。
FC-Former网络由三个并行分支组成:高分辨率(HR)分支、中分辨率(MR)分支和低分辨率(LR)分支。每个分支通过多源图像表示模块和残差块进行特征提取和融合。最终,网络通过监督和无监督任务进行训练。
广义自注意力机制
广义自注意力机制通过多线性代数扩展了现有的自注意力形式。给定输入张量
,自注意力机制可以表示为: