视觉Transformer的高效性对比分析

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-24 01:09

正文

23年8月来自德国几个研究机构的论文“Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers“。

视觉Transformer作为图像分类的首选模型，越来越受欢迎，这导致了出现了比原始ViT更高效的架构修改版。然而，实验条件的广泛多样性阻碍了仅根据其报告结果对所有实验条件进行公平的比较。为了解决这一可比性差距，对30多个模型进行了全面分析，评估视觉Transformer和相关架构的效率，同时考虑各种性能指标。基准为效率导向的Transformer提供了一个可比的基线，揭示了大量令人惊讶的见解。例如，尽管存在几种声称更有效的替代方法，但在多个效率指标中，ViT仍然是Pareto最优的。结果还表明，当涉及到低推理内存和参数量时，混合注意CNN模型表现得特别好。此外，FLOPS的数量和训练内存之间存在很强的正相关性，能够仅从理论测量中估计所需的VRAM。

为了确保公平的实证比较，采用（Touvron，Cord，and Jégou 2022）的训练流水线，训练每个模型架构。这是（Touvron，2021a）对广受欢迎的流水线进行了更新，已在几篇论文中用于训练高效的视觉Transformer。如图所示（用统一的图例表示，标记和色调表示不同的类别）：结果表明，即使出现了声称更高效率的替代架构，训练有素的ViT仍然是Pareto最优的，在保持其高精度的同时吞吐量方面表现出显著的效率。此外，还获得了关于序列约简（sequence reduction）技术和混合注意模型的Pareto最优性，以及在更高分辨率下微调的低效性。该方法能够评估不同模型架构的固有优势和劣势，并在一致的条件下测量真实世界的性能指标，为研究人员和从业者提供宝贵的资源，为他们的特定用例选择最高效、最有效的模型架构。

用（Touvron&Cord&Jégou 2022）引入的训练流水线，对模型进行了总共140个epochs的训练。这是DeiT模型（Touvron，2021a）使用的流水线更新版本，许多作者在CV中成功地使用了该版本来训练他们的有效ViT，如表所示。

视觉Transformer的高效性对比分析

正文

请到「今天看啥」查看全文