专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
广西壮族自治区工业和信息化厅  ·  工信部原副部长王江平:关于制造业数字化转型的 ... ·  昨天  
广西壮族自治区工业和信息化厅  ·  工信部原副部长王江平:关于制造业数字化转型的 ... ·  昨天  
史客郎  ·  刚刚,一件有意思的事 ·  昨天  
六里投资报  ·  景林、但斌300亿持仓披露:东方港湾All ... ·  昨天  
六里投资报  ·  景林、但斌300亿持仓披露:东方港湾All ... ·  昨天  
广东省发展和改革委员会  ·  广东省发展改革委关于备案创业投资企业2024 ... ·  2 天前  
酒醒梦已残  ·  DeepSeek ... ·  3 天前  
酒醒梦已残  ·  DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  小白学视觉

论文推荐| 最强最快ViT诞生,CAS-ViT 提升图像分类、目标检测、语义分割等任务性能,可部署到手机端!!

小白学视觉  · 公众号  · 科技自媒体  · 2024-09-11 10:05

主要观点总结

本文介绍了CAS-ViT:卷积加性自注意力网络,旨在解决视觉Transformer在计算资源和性能之间的平衡问题。

关键观点总结

关键观点1: 背景介绍

视觉Transformer(ViTs)的出现标志着神经网络架构的突破性转变,但它们在资源受限场景和实时应用中的部署仍然具有挑战。

关键观点2: CAS-ViT的提出

作者提出CAS-ViT,一个轻量级的卷积加性自注意力网络,旨在在计算和效率之间达到平衡。

关键观点3: 方法介绍

作者通过构建一个加性相似性函数来简化传统的自注意力机制,并消除复杂的矩阵乘法和Softmax操作。

关键观点4: 实验评估

作者在各种视觉任务上评估了CAS-ViT的性能,并在GPU、ONNX和iPhone上进行了实验,证明了其与其他先进Backbone的竞争性能。

关键观点5: 总结

CAS-ViT提供了一种有效的解决方案,使视觉Transformer在移动设备上实现高效推理和高性能。


正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达

视觉 Transformer (ViTs)与它们的标记混合器的强大全局上下文能力标志着神经网络的革命性进步。然而,标记之间的双向亲和力和复杂的矩阵运算限制了它们在资源受限的场景和实时应用(如移动设备)上的部署,尽管在以前的工作中已经做出了显著的努力。

在本论文中,作者提出CAS-ViT:卷积加性自注意力视觉 Transformer ,以在移动应用的效率和性能之间实现平衡。首先,作者认为标记混合器获取全局上下文信息的能力取决于多个信息交互,例如空间域和通道域。因此,作者遵循这一范例构建了一种新颖的加性相似度函数,并提出了一个高效的实现,名为卷积加性标记混合器(CATM)。这种简化导致了计算开销极大降低。

作者在各种视觉任务上评估CAS-ViT,包括图像分类、目标检测、实例分割和语义分割。

作者在GPU、ONNX和iPhone上进行的实验表明,与其他最先进的 Backbone 相比,CAS-ViT在竞争性能上取得了良好的效果,使其成为有效移动视觉应用程序的可行选择。

作者的代码和模型:https://github.com/Tianfang-Zhang/CAS-ViT。

Introduction

近年来,视觉 Transformer (ViTs)的出现标志着神经网络架构的突破性转变 。与卷积神经网络(CNNs)相比,ViTs具有更低的计算复杂性和更高的推理效率。ViTs采用了一种名为 token mixer 的全新架构。该模块通过捕获长程依赖关系,实现了ViTs增强全局建模和表示能力。

ViT的基本模块包括token mixer、MLP以及相应的跳跃连接,其中token mixer广泛实现为多头自注意力(MSA)。MSA在输入序列上运行,弥补了CNN受限的感受野的局限性,在模型规模和适应性方面具有独特的优势 [11, 21]。尽管它的声誉很高,但与输入图像大小相关的矩阵乘法复杂性使得ViT模型更耗资源,不适用于实时应用和资源受限的设备(如移动应用)的广泛部署。因此,在移动设备上开发既高效又高性能的token mixer成为迫切问题。

如图1所示,Flops与Top-1在ImageNet-1K上的比较。圆形大小表示参数数量,彩色效果最佳。

已经对token mixer进行了改进,包括MSA的优化和异构自注意力(H-MSA)。优化主要关注 Query 和键的矩阵乘法,以增强捕捉长程依赖关系的能力,同时减少算法复杂性。具体技术包括特征重置 [11],载体 Token  [15],稀疏注意力 [16]、线性注意力 [17]等。作为另一种思维方式,H-MSA旨在突破对 之间的点对点相似性,以探索更灵活的网络设计 [24]。最近提出的池化token mixer [24]和上下文向量 [25, 26]进一步加速了推理效率。

尽管相关工作取得了显著的进展,但ViT模型仍受到以下限制:

  1. token mixer中的矩阵操作(如Softmax)的高复杂性。

  2. 在移动设备或实时应用中同时实现准确性、效率和易部署性的困难。

为了解决这些问题,作者提出了一个名为卷积加性自注意力(CAS)-ViT的轻量级网络家族,以在计算和效率之间达到平衡,如图1所示。首先,作者主张token mixer获取全局上下文信息的潜力取决于多种信息交互,例如空间域和通道域。同时,作者构建了一种遵循上述范式的加性相似性函数,并期望激发更有价值的研究。进一步,作者提出了一种使用底层空间和通道注意作为新交互形式的卷积加性 Token 混合器(CATM)。这个模块消除了复杂的矩阵乘法和Softmax操作。最后,作者在各种视觉任务上评估作者的方法,并在GPU、ONNX和iPhone上报告吞吐量。大量实验证实了与其他状态of the art backbones的竞争性能。

Related Work

Efficient Vision Transformers

自从ViT[13]的出现,并在大规模数据集(如ImageNet[4])上的图像分类任务中成功验证后,它展示了自注意力机制在计算机视觉领域应用的潜力[4]。然而,随着网络规模的相应增加,这对资源受限的场景(如移动设备和实时应用)构成了巨大的挑战。为了促进ViT的潜力,研究行人投入了大量的努力来提高ViT的效率。

ViT架构的改进思路涉及多个方面。其中,一种是在提高性能或解决自注意力机制的二次复杂度问题方面,改进标记混合器。例如,PVT[23]采用空间减少策略,实现稀疏关注,从而处理高分辨率图像,Swin[17]采用窗口划分方法,实现局部自注意力,并通过窗口平移处理相邻块之间的依赖关系。

另一个视角是探索结合卷积神经网络(CNN)和Transformer的混合模型,以补偿自注意力机制在处理局部信息方面的局限性[10]。EdgeViT[22]采用卷积层和稀疏注意力,分别实现块级信息集成和传播。NextViT[18]通过全面的实验证实了混合模型的有效性及其设计策略。EfficientViT[17]进一步分析了各种操作所需的时间比例,以实现高效的推理。

Efficient Token Mixer

提高标记混合器的效率是无 Transformer 领域的关键研究方向之一。研究行人正在努力追求更轻便和更高效的标志混合器,以提高训练的可行性和实际应用的可行性。

这个努力的一部分是用于改善多标量自注意力(MSA)。双胞胎[17]通过在 patch 之间引入自注意力来实现全局和局部依赖的并行。一些工作[19, 12, 11]关注于通道之间的信息融合,并通过 ConCat 和交换实现不同域的自注意。线性注意[20]假设相似性函数是线性的可导函数,从而解决了自注意机制的四次复合问题。[1]通过专注于函数的函数将ReLU基础的线性注意进行更细分化。[1] 进一步通过增加注意力头来简化注意力复杂性。

异构多标量自注意力(H-MSA)是自注意机制发展的扩展形式,它突破了 MSA 框架的限制,旨在获得更好的特征关系和更强的推理效率。最初,MetaFormer[24]认为标记混合器不是影响 Transformer 性能的关键组件,然而PoolFormer并不能被证明是非常高效的。随后,MobileViTv2[10]通过赋予全局信息给上下文向量简化了复杂的矩阵乘法。SwiftFormer [26]甚至消除了'Value',在特征之间实施了更简单的加权求和,通过更简化的归一化操作实现更简洁和高效的H-MSA。

Methods

在本节中,作者首先回顾了MSA及其变体的基本原理。接着,作者将介绍提出的CATM,并着重分析其与传统机制的区别和优势。最后,作者将描述CAS-ViT的整体网络架构。

Overview of Self-Attention and Variants

视觉 Transformer (Visual Transformers)的一个重要组成部分是自注意力机制,它能够有效地捕捉不同位置之间的关系。给定一个输入 ,其中包含 个具有 - 维嵌入向量的位置,自注意力机制可以表示如下,采用相似度函数 :

沙利等人(2018 年)提出的一种可分离自注意力,如图2(b) 所示,将基于矩阵的特征度量简化为向量,从而实现轻量级和高效推理,降低计算复杂度。接着,通过 计算上下文的分数。然后,将上下文分数 相乘并进行空间维度上的求和,得到衡量全局信息的上下文向量。它可以具体描述为:

其中 是由 的键通过线性层得到的, 表示广播元素乘法。

快速自注意力,如图2(c) 所示,是一个很好的关注 H-MSA 架构,将自注意力的键减少到两个,从而实现快速推理。它使用通过线性变换得到 的系数 来权重每个标记。然后,在空间域上求和并乘以 ,得到全局上下文。它具体地表示为:

其中 表示归一化的 Query , 是线性变换。

Convolutional Additive Self-attention

在本节中,作者提出了一种自注意力机制的信息融合能力源于多个信息交互,例如通道中的MSA(DaViT Ding等人,2022)、移动ViTv2和SwiftFormer(图2)中的压缩表示。另一种选择是,简单而有效的操作是否能更好地满足多个交互,同时又不失其互动性质呢?

遵循这一原理,如图2(d)所示,作者创新地将相似度函数定义为 的背景分数之和:

其中,Query、Key和Value是由独立线性变换得到的,例如 , , , 表示上下文映射函数,其中包含了重要的信息交互。这种泛化的优势在于,它不限制手动上下文设计,并允许通过卷积操作实现。在这个文章中,作者将 简单地具体化为带Sigmoid的通道注意力 和空间注意力 。因此,CATM的输出可以表示为:

其中 表示整合上下文信息的可线性变换。由于CATM中的操作都是通过卷积表示,因此复杂度为

与分离自注意力关系 :与Mehta和Rastegari(2022)的方法相比,作者在 Query 和关键分支中分别提取相似度分数,并保留每个分支的原特征维度。这使得可以更好地保留视觉稀疏特征,并避免2D分数向量上的信息损失。

与高效加性自注意力关系 :首先,在token mixer中,作者采用带Sigmoid激活的注意力提取形式,而不是规范化。这简化了网络并行化,并适用于移动设备部署。此外,[14]中的注意力模块仅应用于网络的每个阶段,而作者所提出的CATM将应用到整个ViT架构的每个层。

复杂度分析 :在具体实现中, 被设计为深度卷积与Sigmoid激活相结合的形式,并被定义为 ,其中 表示批处理大小,它可以在训练和推理阶段保持不变。 则通过简化通道注意力实现,并被定义为 。因此,与 QKV 的映射和 的线性变换相结合,CATM始终保持与输入大小的线性复杂度:

Network Architecture

图3(上)说明了所提出的网络架构。输入一张自然图像,尺寸为 。然后通过两个步长为2的连续卷积层进行下采样,下采样至 ,其中 表示通道数。

接下来,图像通过四个阶段的编码层,每个阶段都使用Patch Embedding下采样2次,获得特征图大小为







请到「今天看啥」查看全文