百度&北航提出通用主干MAFormer,兼顾局部和全局感知!
【写在前面】
Vision Transformer 及其变体在各种计算机视觉任务中展示了巨大的潜力。但传统的视觉Transformer 通常侧重于粗略级别的全局依赖,这在全局关系和token级别的细粒度表示方面存在学习挑战。在本文中,作者将 Multi-scale Attention Fusion 引入到 Transformer (MAFormer) 中,它探索了用于视觉识别的双流框架中的
局部聚合
和
全局特征
提取。作者开发了一个简单但有效的模块,通过在token级别学习细粒度和粗粒度特征并动态融合它们来探索Transformer 在视觉表示方面的全部潜力。本文的多尺度注意力融合 (MAF) 块包括:i) 一个
局部窗口注意力分支
,它学习窗口内的短程交互,聚合细粒度的局部特征;ii) 通过一种新颖的
全局下采样学习 (GLD)
操作提取全局特征,以有效地捕获整个图像中的远程上下文信息;iii)一个
融合模块
,通过注意力探索两个特征的整合。本文的 MAFormer 在常见的视觉任务上实现了最先进的性能。特别是,MAFormer-L 在 ImageNet 上的 Top-1 准确率达到 85.9%,分别超过 CSWin-B 和 LV-ViT-L 1.7% 和 0.6%。在 MSCOCO 上,MAFormer 在对象检测方面的 mAPs 比现有技术 CSWin 高 1.7%,在具有相似大小参数的实例分割方面比现有技术 CSWin 高 1.4%,证明了成为通用骨干网络的潜力。
1. 论文和代码地址
MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition
论文地址:
https://arxiv.org/abs/2209.01620
[1]
代码地址:未开源
2. 动机
自 ViT取得突破以来,Transformers 在计算视觉领域占据了主导地位,在图像识别、对象检测和语义分割等各种视觉任务中取得了优异的成绩。尽管取得了这些进展,但符合 ViT的全局自注意力机制对输入图像大小具有二次计算复杂度,这对于高分辨率场景来说是无法忍受的。为了降低复杂性,引入了几种变体来
用局部自注意力代替全局自注意力
。具有分层架构的 Swin Transformer将输入特征划分为非重叠窗口,并逐层移动窗口位置。之后,设计了各种窗口分区机制以更好地捕获局部特征。CSWin Transformer将特征平行地分成水平和垂直条纹,旨在扩大窗口感受野。但是,它只关注窗口内的信息,而未探索跨窗口的依赖关系。Shuffle Transformer重新审视了 ShuffleNet并将空间 shuffle 嵌入到局部窗口中以加强它们的连接。虽然这些基于局部窗口的注意力方法取得了优异的性能,甚至比卷积,它们在全局关系上面临学习挑战,这对于更好的特征表示是必不可少的。另一类研究工作侧重于
将 CNN 与Transformer相结合
,这是局部模式和全局模式之间的权衡。CvT将自注意块中的线性投影转换为卷积投影。CoatNet通过简单的相对注意将深度卷积与自注意合并,并以有原则的方式堆叠卷积和注意层。DS-Net提出了一种双流框架,该框架通过交叉注意融合了卷积和自注意,其中每种形式的尺度都学习与其他形式对齐。然而,如 DS-Net所示,卷积和注意力具有本质上相互冲突的属性,这可能会导致训练中的歧义。例如,全局自注意力捕获的远程信息可能会扰乱高分辨率特征图中卷积的相邻细节,从而影响全局和局部表示。
在本文中,作者开发了一种
多尺度注意力融合Transformer
(MAFormer),它探索了双流Transformer框架中的局部聚合和全局特征提取。为了避免卷积和自注意力不兼容的风险,作者应用局部窗口注意力来提取细粒度的特征表示。作者还设计了一个带下采样的全局学习 (GLD) 模块来提取全局特征,该模块根据全尺寸输入捕获粗粒度特征。通过位置嵌入进一步将输入的token级位置信息编码为全局表示。此外,作者描述了两种基于不同融合策略的双流架构,特别是多尺度注意力融合(MAF)方案,可以充分挖掘这两种特征的潜力。其有效性可以通过 MAF 块可以增强每个局部-全局token对之间的交互来解释,其中局部特征和全局特征在统一的框架中共同训练,形成更丰富和信息丰富的表示。这项工作的贡献总结如下。
1.引入MAFormer网络,在token级别提取和融合细粒度和粗粒度特征,可以通过注意力自我探索两种特征的集成,以提高输入图像的表示能力。
2.首先引入局部窗口注意力分支来学习局部窗口内的短程交互。进一步在双分支上引入了带下采样的全局学习 (GLD) 模块,该模块有效地捕获了整个图像中的远程上下文信息。
3.基于不同的融合策略开发了两种双流架构,特别是多尺度注意力融合(MAF)方案,可以充分挖掘这两种特征的潜力。
4.,提出的 MAFormer 在识别性能方面大大优于先前的视觉 Transformer。我们还实现了与之前最好的 CSWin 相比,用于具有相似参数的对象检测和实例分割的最先进的结果。
3. 方法
3.1 Overall Architecture
提出的多尺度注意力融合机制,以在token级别提取细粒度和粗粒度特征并动态融合它们,形成通用视觉Transformer主干,称为MAFormer,提高各种视觉任务的性能。上图(a) 显示了 MAFormer 的整体架构。它以图像
作为输入,其中 W 和 H 表示输入图像的宽度和高度,并采用分层设计。通过降低特征图的分辨率,网络可以捕获不同阶段的多尺度特征。通过降低特征图的分辨率,网络可以捕获不同阶段的多尺度特征。将输入图像划分为块并执行块合并,接收具有 C 个特征通道的
个视觉token。从那里,token流经 MAF 块的两个阶段和原始 Vision Transformer 块的两个阶段。在每个阶段,MAFormer 按照惯例采用了一个patch合并层,它将特征图的空间大小下采样 2 倍,同时增加了特征通道维度。
根据最近对特征表示的研究,像 ViT 这样的视觉Transformer在其较低层局部和全局参与,但主要关注较高层的全局信息。根据该模式,作者在 MAFormer 的前两个阶段合并了多尺度特征表示,而在后两个阶段,使用了原始的视觉Transformer块,其中降低了特征的分辨率和完整的计算成本注意力变得负担得起。
3.2 Multi-scale Attention Fusion Block
在本节中,详细介绍多尺度注意力融合 (MAF) 模块的细节。如上图(b) 所示,MAF 块包括一个局部聚合分支和一个带下采样的全局学习 (GLD) 分支,分别生成token级细粒度和粗粒度特征。两个流都被输入到融合模块中,以提高特征表示的能力。
Local aggregation
以前的混合网络利用 CNN 提取局部特征,这些特征进一步集成到 Transformer 分支中。然而,这种方法存在卷积和自注意力之间不匹配的风险。在 MAF 中,作者避免了不兼容并探索使用基于局部窗口的多头注意力机制作为细粒度表示。考虑输入
,局部聚合
定义为:
其中
表示第 l 个 Transformer 块的输出。
Global feature extraction
尽管局部窗口自注意力方法取得了优异的性能,但它们只能捕获窗口信息,无法探索它们之间的依赖关系。此外,由于粗粒度上下文信息的使用不足,现有方法在全局依赖提取方面仍面临挑战。因此,有效捕获全局依赖关系是模型表示的组成部分。
为了解决这些问题,作者引入了一个带下采样的全局学习 (GLD) 模块,以从大型输入中提取全局信息。为此,作者首先使用一个全连接到特征输入的单个神经元层。在不切割任何维度的情况下,它会输出一个动态学习的下采样上下文抽象。如上图(b) 所示,输入
首先被展平为
,其中 L 等于 H×W。然后
由一个全连接层全局提取,缩小到缩放比例 N。在实验过程中,作者调整了 N 的几个值,0.5 是最优的,在 MAFormer 中设置为默认值。此外,通过位置嵌入将输入的token级位置信息编码为全局表示。如上图所示,Pos操作使用逐层双线性插值作为度量,FC 表示为全连接。
其中
表示第 l 个 Transformer 块的全局分支输出。
Multi-scale attention fusion (MAF)
作者开发了两种类型的双流多尺度表示,如上图所示。首先,作者在局部表示之上提取全局依赖关系作为增强,旨在提供跨局部窗口的信息流。如上图(b) 所示,GLD 模块获取局部窗口注意力的输出,并将全局表示与局部表示融合回来。然而,这种方法只能捕捉局部属性之间的全局相关性,而不是来自输入。因此,作者提出了多尺度注意力融合 (MAF) 度量,直接分别提取输入的局部和全局尺度。两个信息流都通过注意力输入到一个融合块中,如上图(c) 所示。通过这种方式, MAF 块可以捕获每个局部-全局token对之间的相关性,并提示局部特征自适应地探索它们与全局表示的关系,从而使其更具代表性和信息量。
给定提取的局部特征
和全局特征