论文链接:
https://arxiv.org/abs/2312.00412
视觉Transformer(ViTs)近年来在计算机视觉领域变得无处不在。在这个架构下,图像被分解成一组被视为token的patch,并被馈送到一个由两个主要组件组成的Transformer模型中:一个空间注意力模块,根据token与图像提取的其他token的相似度重新加权每个token,实现了跨大空间距离的信息融合;以及一个通过多层感知器(MLP或FFN)将从所有patch中提取的特征通道进行混合的通道混合器。这个模型的瓶颈是注意力机制对patch数量的二次复杂度。近年来已经提出了许多ViT变体来改善复杂度和(或)准确性。这些可以分为:1)改进注意力机制和2)替换注意力或将其与卷积结合的混合架构。
与通道混合器相比,关于通道混合器的研究要少得多。大多数模型只是采用了中的MLP块,由两层组成,首先通过指定的扩展比例扩展通道,然后压缩到原始维度。这有些令人惊讶,因为混合器对于良好的Transformer性能至关重要。
在这项工作中,我们研究了稀疏特征混合是否可以代替密集连接,并通过支持更大的扩展比率的块对角线MLP结构进行了确认,从而提高了准确性。为了改进由该结构形成的特征簇并从而进一步提高准确性,我们在训练期间引入了一种轻量级、无参数的通道协方差注意力(CCA)机制作为并行分支。该CCA设计在训练期间使跨通道组逐渐进行特征混合,其贡献随着训练收敛而衰减至零。这使得在推理期间可以丢弃CCA块,从而在不增加额外计算成本的情况下实现性能增强。由此产生的“可扩展通道混合器”(SCHEME)可以插入到任何ViT架构中,通过控制MLP中的块对角线结构大小,获得具有不同复杂性和性能之间折衷的模型系列。通过引入新的SCHEMEformer模型系列来证明这一点。对使用不同ViT骨干的图像分类、目标检测和语义分割的实验一致表明,与现有设计相比,特别是在较低FLOPs条件下,准确性得到了显著提高。例如,在1.77G FLOPs上,SCHEMEformer在ImageNet-1K上使用纯注意力混合器实现了79.7%的准确率,创下了新的SOTA记录。
为了有效实现更高中间MLP特征维度的收益,我们提出了SCHEME模块,它包括一个BD-MLP和一个CCA块,其中CCA分支仅在训练过程中使用。
标准通道混合器由两个多层感知机(MLP)层组成,它们将输入特征的维度扩展并将其缩减回原始大小。设x ∈ Rd×N为包含从N个图像块中提取的N个d维输入特征向量的矩阵。混合器计算出中间表示z ∈ REd×N和输出表示y ∈ Rd×N,其中
其中,W1 ∈ REd×d,W2 ∈ Rd×Ed, b1 ∈ Rd, b2 ∈REd,1N是包含全为1的N维向量,σ(.)是激活函数(通常为GELU),E是扩展因子,一般为4。
Block Diagonal MLP(BD-MLP)
之前研究已经提出了块对角矩阵来有效逼近稠密矩阵。在CNN中,频繁使用群组通道操作来设计轻量级移动模型,以改善准确性和计算量之间的权衡。这包括将(1)-(2)的特征向量划分为不相交的群组,例如将x划分为一组g1个不相交的特征{xk}g1k=1,其中xk ∈ Rd/g1×N,将y划分为一组{yk}g2k=1,其中yk ∈ REd/g2×N,然后对每个群组独立地实现(1)-(2)的MLP。
其中W1 ∈ REd/g1×d/g1,W2 ∈ Rd/g2×Ed/g2, b1 ∈Rd/g1, b2 ∈ REd/g2,而z被分解为一组{zk}Gk=1,其中zk ∈ Rd/G×N,在公式(3)中G = g1且在公式(4)中G = g2。由于(3)的复杂度比(1)小g21倍且有g1个组,第一个MLP的复杂度是标准MLP的1/g1倍。类似地,第二个MLP的复杂度是标准MLP的1/g2倍。因此,装备了BD-MLP和扩展因子为 2g1g2g1+g2E的transformer的复杂度与标准transformer的因子E相同。例如,当g1 =g2 = g时,这允许将扩展因子增加g倍而不增加计算量。
虽 然 引 入 组 能 通过 2g1g2g1+g2 增加扩展因子从而增加准确性,但这样做却会导致次优的特征。这是因为在(3)-(4)的不同组的特征是独立处理的,即不存在组间特征融合。这降低了BDMLP的效率。为了在所有特征通道之间实现特征混合,从而促成更好的特征聚类,我们在一个并行分支中引入了一个协方差注意力机制,如图2所示。首先,输入特征被转置以获得d × d的协方差矩阵1 xxT。然后,通过与其他特征通道的协方差对输入特征进行重新加权,用于实现特征混合。
其中,softmax操作应用在矩阵的行上,并且τ是一个 平 滑 因 子。通 道 混 合 器 模 块 的 输 出 是 通 过BDMLP和CCA分支的加权求和获得的,根据
使用一个无参数的注意力分支和一个静态权重α的设计选择,使得模型在训练过程中能够更好地形成特征簇,并逐渐减小CCA分支的贡献。这可以从图4a中看到,在ImageNet-1K数据集上,对于所有的transformer层,学习到的混合权重1−α随着训练轮数的增加而变化。这些图表展示了我们观察到的所有transformer骨干网络和架构的行为特征。显然,1 −α开始时具有较高或中等值,表明信息通过混合器的两个分支流动,但随着训练的收敛,衰减至1−α ≈ 0。因此,在推理阶段去除CCA分支不会导致性能下降。这减少了推理过程中的大量计算,实现了图2中的训练和推理设置,其中在推理中不使用CCA。
提出的SCHEME模块可以插入任何ViT架构中,通过调整混合超参数g1、g2和E,能够高效控制模型复杂度。
通过在Metaformer-PPAA 架构的通道混合器替换为SCHEME模块,我们引入了一类新模型,称为SCHEMEformer。下表展示了两个这样的配置,命名采用了{model-name}-{g1g2}-e{E}的约定。在实验部分中,我们展示了这些模型能够在较低的计算预算下实现SOTA准确率,并讨论了其他骨干网络的结果。
我 们 对SCHEME模 块 在 图 像 分 类(ImageNet-1K )、目标检测(COCO-17)和语义分割(ADE-20K )基准上进行了评估。
Image Classification on ImageNet-1K dataset
COCO-17 Object Detection and Instance Segmentation
Semantic Segmentation results on
ADE20K dataset using Semantic FPN
!!论文中文版pdf请联系小助手加入论文交流群!!