23年8月
来自德国几个研究机构的
论文“Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers“。
视觉Transformer作为图像分类的首选模型,越来越受欢迎,这导致了出现了比原始ViT更高效的架构修改版。
然而,实验条件的广泛多样性阻碍了仅根据其报告结果对所有实验条件进行公平的比较。
为了解决这一可比性差距,对30多个模型进行了全面分析,评估视觉Transformer和相关架构的效率,同时考虑各种性能指标。
基准为效率导向的Transformer提供了一个可比的基线,揭示了大量令人惊讶的见解。
例如,尽管存在几种声称更有效的替代方法,但在多个效率指标中,ViT仍然是Pareto最优的。
结果还表明,当涉及到低推理内存和参数量时,混合注意CNN模型表现得特别好。
此外,FLOPS的数量和训练内存之间存在很强的正相关性,能够仅从理论测量中估计所需的VRAM。
为了确保公平的实证比较,采用(Touvron,Cord,and Jégou 2022)的训练流水线,训练每个模型架构。这是(Touvron,2021a)对广受欢迎的流水线进行了更新,已在几篇论文中用于训练高效的视觉Transformer。如图所示(用统一的图例表示,标记和色调表示不同的类别):结果表明,即使出现了声称更高效率的替代架构,训练有素的ViT仍然是Pareto最优的,在保持其高精度的同时吞吐量方面表现出显著的效率。此外,还获得了关于序列约简(sequence reduction)技术和混合注意模型的Pareto最优性,以及在更高分辨率下微调的低效性。该方法能够评估不同模型架构的固有优势和劣势,并在一致的条件下测量真实世界的性能指标,为研究人员和从业者提供宝贵的资源,为他们的特定用例选择最高效、最有效的模型架构。
为了更好地理解不同的方法,作者提出了一个基于模型中更改位置的分类法,如图所示。
这里确定了三个主要区域:
token混合机制、token序列和MLP块。
虽然这种分类法并不意味着对类ViT的模型进行全面概述,但作为一种工具,用于识别最流行的策略,以提高ViT的效率。
为了找到最有效的模型,需要将其与原始ViT(Dosovitskiy,2021)及其后续版本(Touvron,2021a;
Touvron&Cord&Jégou 2022)进行比较来量化其效率增益。
还包括ResNet50的指标(He,2016),作为CNN架构的代表性基线和论文之间的比较点。
在ImageNet-1k数据集上进行了评估(Deng,2009),因为它是CV中最著名的基准之一。
用(Touvron&Cord&Jégou 2022)引入的训练流水线,对模型进行了总共140个epochs的训练。这是DeiT模型(Touvron,2021a)使用的流水线更新版本,许多作者在CV中成功地使用了该版本来训练他们的有效ViT,如表所示。