专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

CVPR 2024｜基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

极市平台 · 公众号 · · 2024-04-24 22:00

正文

↑ 点击蓝字关注极市平台

作者丨机器之心

来源丨机器之心

编辑丨极市平台

极市导读

作者提出了一个统一的通用图像融合模型，提供了一种新的任务定制混合适配器（TC-MoA）用于自适应多源图像融合。作者为适配器提出了一种互信息正则化方法，这使得我们的模型能够更准确地识别不同源图像的主导强度。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接： https://arxiv.org/abs/2403.12494
代码链接： https://github.com/YangSun22/TC-MoA
论文题目：Task-Customized Mixture of Adapters for General Image Fusion

研究背景与动机

图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上。这种方式通常被用于提取图片重要信息和提高视觉质量。

目前，一般的图像融合主要包括多模态、多曝光、多焦图像融合等。融合任务表现出不同的融合机制。多曝光图像融合（MEF）的重点是将具有多个曝光程度的图像序列转换成一个高质量的全曝光图像。每个源图像为融合的图像提供自己的光照和结构信息。可见红外图像融合（VIF）是一种多模态图像融合（MMF），旨在融合红外和可见模态的互补信息，产生鲁棒且信息丰富的融合图像。红外图像提供更多的强度信息，而可见图像提供更多的纹理和梯度信息。多聚焦图像融合（MFF）的目的是从一系列部分聚焦的图像中生成一个全聚焦的图像。多聚焦融合图像的每个清晰区域通常只需要学习一个源图像。因此，可以观察到，MEF 和 VIF 任务是多源相对平等的融合，而 MFF 是多源地位较为极端的任务，对图像的某一区域而言，往往表现出极化的选择。

随着深度学习技术的快速发展，近年来图像融合领域取得了很大的进展，而现有的方法大多只关注单一图像融合场景，通常为单一任务采用特定策略，如为某任务设计的复杂网络或任务特定的损失函数，导致无法直接应用在其他任务上。考虑到不同融合任务的本质相同，即整合来自多个源图像的重要信息，最近提出的一些方法，试图使用统一的模型处理多种融合任务，构建通用的图像融合。然而，这些方法要么有主导任务偏差，要么为了多任务共性而牺牲个性，导致次优的性能。这促使我们探索一个更兼容的融合范式，它可以自适应地动态地兼容不同的融合场景。

为了处理这一挑战，受到预训练基座模型强大的特征表示能力的启发，我们引入了基座模型作为一个冻结的编码器来提取多源图像的互补特征。与大多数现有方法不同的是，我们借鉴了混合专家（MoE）的思想，将每个专家作为一个高效的微调适配器，基于基座模型执行自适应视觉特征提示融合。任务特定的路由网络定制这些适配器的混合，为不同的源生成任务特定的融合提示，形成一种新的任务定制混合适配器（TC-MoA）架构。另外，我们设计了互信息正则化来约束融合提示，从而保证了对不同来源的互补性。值得注意的是，融合提示具有显著的任务偏差和模态主导强度差异。如图 1 所示，MFF 的提示比 VIF 和 MEF 的色差更大，说明特征选择在优势模态的强度偏差上具有更多的双极性。我们的模型有效地感知了单一模型中不同融合任务之间的融合强度偏差，因此与更广泛的融合任务相兼容。

大量的实验验证了我们在通用图像融合方面的优越性，包括多模态、多曝光和多焦点融合。更重要的是，我们的 TC-MoA 甚至对未知的融合任务显示出了创造性的可控性和泛化性，充分展示了我们在更广泛的融合场景中的潜力。

主要贡献

我们提出了一个统一的通用图像融合模型，提供了一种新的任务定制混合适配器（TC-MoA）用于自适应多源图像融合（受益于动态聚合各自模式的有效信息）。
我们为适配器提出了一种互信息正则化方法，这使得我们的模型能够更准确地识别不同源图像的主导强度。
据我们所知，我们首次提出了一种基于 MoE 的灵活适配器。通过只添加 2.8% 的可学习参数，我们的模型可以处理许多融合任务。大量的实验证明了我们的竞争方法的优势，同时显示了显著的可控性和泛化性。

核心方法

如图 2 所示，给定一对源图像，网络整合来自不同源的互补信息，获得融合图像。我们将源图像输入 ViT 网络，并通过 patch 编码层获得源图像的 Token。ViT 由一个用于特征提取的编码器和一个用于图像重建的解码器组成，这两者都是由 Transformer 块组成的。

在编码器和解码器中，每个 Transformer 块插入一个 TC-MoA。网络通过这些 TCMoA 逐步调制融合的结果。每个 TC-MOA 由一个特定于任务的路由器银行，一个任务共享适配器银行和一个提示融合层F组成。TC-MoA 包括两个主要阶段: 提示生成和提示驱动的融合。为了便于表达，我们以 VIF 为例，假设输入来自 VIF 数据集，并使用 G来表示。

提示生成 。首先，获得后续处理的多源特征。将第个 TC-MoA 之前的网络结构定义为，并提取提示生成特征定义为和。我们将和作为多源 Token 对的特征表示拼接起来。这允许来自不同来源的 Token 在后续的网络中交换信息。然而，直接计算高维的拼接特征会带来大量不必要的参数。因此，我们使用进行特征降维，得到处理后的多源特征，如下:

然后，根据 Φ 所属的任务，我们从路由器银行中选择一个任务特定的路由器来定制路由方案，即，每对源 Token 应该输入适配器银行中的哪个适配器。

最后，我们对适配器的输出进行加权求和，以获得融合提示。每个路由器都有任务偏好来定制合适的适配器混合，然后通过适配器混合生成提示，计算方法如下：

提示驱动的融合 。任务定制的提示受到互信息正则化（MIR）的约束，这保证了对不同源的互补性。因此，提示可以作为对每个来源中重要信息的比例的估计。通过多源特征和提示的点乘，我们在去除冗余信息的同时保留了互补信息。然后，考虑到特征表示应该包含源相关的偏置（如可见或红外图像），我们为每个源引入输入无关的可学习参数，即源编码 s。特征在经过提示修饰和源偏置，我们得到细化的源特征，然后经过融合层 F 获得融合特征，过程如下：

最终，我们通过任务定制的提示获得了一个融合特征。为了鼓励模型逐步地提取重要信息，我们对输出到下一个 Transformer 块的特征定义如下（

CVPR 2024｜基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

正文

研究背景与动机

主要贡献

核心方法

请到「今天看啥」查看全文