专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
OFweek维科网  ·  净利激增106%!联想追平荣耀 ·  昨天  
半导体行业联盟  ·  芯片首富,火了! ·  4 天前  
OFweek维科网  ·  利润暴涨396%!这一激光厂商连斩巨头订单 ·  4 天前  
OFweek维科网  ·  获赔260万元!OPPO法务出手 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

微软提出可扩展通道混合器SCHEME!助力视觉Transformer达到新SOTA!

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-06-29 00:23

正文

数源AI 最新论文解读系列


论文链接: https://arxiv.org/abs/2312.00412



引言

视觉Transformer(ViTs)近年来在计算机视觉领域变得无处不在。在这个架构下,图像被分解成一组被视为token的patch,并被馈送到一个由两个主要组件组成的Transformer模型中:一个空间注意力模块,根据token与图像提取的其他token的相似度重新加权每个token,实现了跨大空间距离的信息融合;以及一个通过多层感知器(MLP或FFN)将从所有patch中提取的特征通道进行混合的通道混合器。这个模型的瓶颈是注意力机制对patch数量的二次复杂度。近年来已经提出了许多ViT变体来改善复杂度和(或)准确性。这些可以分为:1)改进注意力机制和2)替换注意力或将其与卷积结合的混合架构。

与通道混合器相比,关于通道混合器的研究要少得多。大多数模型只是采用了中的MLP块,由两层组成,首先通过指定的扩展比例扩展通道,然后压缩到原始维度。这有些令人惊讶,因为混合器对于良好的Transformer性能至关重要。


简介

在这项工作中,我们研究了稀疏特征混合是否可以代替密集连接,并通过支持更大的扩展比率的块对角线MLP结构进行了确认,从而提高了准确性。为了改进由该结构形成的特征簇并从而进一步提高准确性,我们在训练期间引入了一种轻量级、无参数的通道协方差注意力(CCA)机制作为并行分支。该CCA设计在训练期间使跨通道组逐渐进行特征混合,其贡献随着训练收敛而衰减至零。这使得在推理期间可以丢弃CCA块,从而在不增加额外计算成本的情况下实现性能增强。由此产生的“可扩展通道混合器”(SCHEME)可以插入到任何ViT架构中,通过控制MLP中的块对角线结构大小,获得具有不同复杂性和性能之间折衷的模型系列。通过引入新的SCHEMEformer模型系列来证明这一点。对使用不同ViT骨干的图像分类、目标检测和语义分割的实验一致表明,与现有设计相比,特别是在较低FLOPs条件下,准确性得到了显著提高。例如,在1.77G FLOPs上,SCHEMEformer在ImageNet-1K上使用纯注意力混合器实现了79.7%的准确率,创下了新的SOTA记录。



模型与方法

为了有效实现更高中间MLP特征维度的收益,我们提出了SCHEME模块,它包括一个BD-MLP和一个CCA块,其中CCA分支仅在训练过程中使用。


标准通道混合器由两个多层感知机(MLP)层组成,它们将输入特征的维度扩展并将其缩减回原始大小。设x ∈ Rd×N为包含从N个图像块中提取的N个d维输入特征向量的矩阵。混合器计算出中间表示z ∈ REd×N和输出表示y ∈ Rd×N,其中


其中,W1 ∈ REd×d,W2 ∈ Rd×Ed, b1 ∈ Rd, b2 ∈REd,1N是包含全为1的N维向量,σ(.)是激活函数(通常为GELU),E是扩展因子,一般为4。


1

Block Diagonal MLP(BD-MLP)


之前研究已经提出了块对角矩阵来有效逼近稠密矩阵。在CNN中,频繁使用群组通道操作来设计轻量级移动模型,以改善准确性和计算量之间的权衡。这包括将(1)-(2)的特征向量划分为不相交的群组,例如将x划分为一组g1个不相交的特征{xk}g1k=1,其中xk ∈ Rd/g1×N,将y划分为一组{yk}g2k=1,其中yk ∈ REd/g2×N,然后对每个群组独立地实现(1)-(2)的MLP。

其中W1 ∈ REd/g1×d/g1,W2 ∈ Rd/g2×Ed/g2, b1 ∈Rd/g1, b2 ∈ REd/g2,而z被分解为一组{zk}Gk=1,其中zk ∈ Rd/G×N,在公式(3)中G = g1且在公式(4)中G = g2。由于(3)的复杂度比(1)小g21倍且有g1个组,第一个MLP的复杂度是标准MLP的1/g1倍。类似地,第二个MLP的复杂度是标准MLP的1/g2倍。因此,装备了BD-MLP和扩展因子为 2g1g2g1+g2E的transformer的复杂度与标准transformer的因子E相同。例如,当g1 =g2 = g时,这允许将扩展因子增加g倍而不增加计算量。

2

通 道 协 方 差 注 意 力 (CCA)

虽 然 引 入 组 能 通过 2g1g2g1+g2 增加扩展因子从而增加准确性,但这样做却会导致次优的特征。这是因为在(3)-(4)的不同组的特征是独立处理的,即不存在组间特征融合。这降低了BDMLP的效率。为了在所有特征通道之间实现特征混合,从而促成更好的特征聚类,我们在一个并行分支中引入了一个协方差注意力机制,如图2所示。首先,输入特征被转置以获得d × d的协方差矩阵1 xxT。然后,通过与其他特征通道的协方差对输入特征进行重新加权,用于实现特征混合。


其中,softmax操作应用在矩阵的行上,并且τ是一个 平 滑 因 子。通 道 混 合 器 模 块 的 输 出 是 通 过BDMLP和CCA分支的加权求和获得的,根据

其中α是在所有样本中学习得到的混合权重。


3

CCA作为正则化器

使用一个无参数的注意力分支和一个静态权重α的设计选择,使得模型在训练过程中能够更好地形成特征簇,并逐渐减小CCA分支的贡献。这可以从图4a中看到,在ImageNet-1K数据集上,对于所有的transformer层,学习到的混合权重1−α随着训练轮数的增加而变化。这些图表展示了我们观察到的所有transformer骨干网络和架构的行为特征。显然,1 −α开始时具有较高或中等值,表明信息通过混合器的两个分支流动,但随着训练的收敛,衰减至1−α ≈ 0。因此,在推理阶段去除CCA分支不会导致性能下降。这减少了推理过程中的大量计算,实现了图2中的训练和推理设置,其中在推理中不使用CCA。


4

The SCHEMEformer family

提出的SCHEME模块可以插入任何ViT架构中,通过调整混合超参数g1、g2和E,能够高效控制模型复杂度。 通过在Metaformer-PPAA 架构的通道混合器替换为SCHEME模块,我们引入了一类新模型,称为SCHEMEformer。下表展示了两个这样的配置,命名采用了{model-name}-{g1g2}-e{E}的约定。在实验部分中,我们展示了这些模型能够在较低的计算预算下实现SOTA准确率,并讨论了其他骨干网络的结果。


实验结果

我 们 对SCHEME模 块 在 图 像 分 类(ImageNet-1K )、目标检测(COCO-17)和语义分割(ADE-20K )基准上进行了评估。


Image Classification on ImageNet-1K dataset


COCO-17 Object Detection and Instance Segmentation


Semantic Segmentation results on ADE20K dataset using Semantic FPN




!!论文中文版pdf请联系小助手加入论文交流群!!







请到「今天看啥」查看全文


推荐文章
OFweek维科网  ·  净利激增106%!联想追平荣耀
昨天
半导体行业联盟  ·  芯片首富,火了!
4 天前
OFweek维科网  ·  获赔260万元!OPPO法务出手
3 天前
硕士博士读书会  ·  林彪卫士长李文普:有关林彪事件不得不说
7 年前
教你驾驭男人  ·  选择哪个座位,就是哪种人,不得不服!
7 年前
酱子工厂  ·  姑娘你这是要干嘛!太逗了!
7 年前
凤凰读书  ·  人类学家首抵非洲 | 在人间
7 年前