点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
编辑:计算机视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
今天笔者为大家推荐一篇最新的综述,详细总结了Transformer的网络架构、优化策略、发展方向,还会定期更新Github,研究注意力机制的小伙伴一定不要错过。
注意机制有助于人类视觉系统有效地分析和理解复杂场景,它能够聚焦于图像的关键区域,同时忽略无关紧要的部分。受此概念启发,注意机制已经被引入到计算机视觉(CV)中,以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于与目标任务相关的重要区域,同时忽略不重要的区域。
标准的自注意机制在ViTs中的使用受到了二次计算和内存复杂性的限制,这限制了它处理高分辨率输入并扩展到下游任务的能力。此外,为CV设计Transformer需要一种自适应策略来捕获分层特征描述。这种适应是必要的,因为视觉数据中感兴趣的对象通常具有不同的形状和尺度,需要一种灵活的方法来准确表示和分析遇到的各种视觉模式。此外,ViTs中的标记化过程在提高计算效率方面起着关键作用。对标记化方法(例如重新采样技术)进行仔细考虑和优化,对ViT模型的整体性能有着重要的贡献。高效的标记化不仅有助于更好地计算,还提高了模型处理多样化输入数据的效率。此外,值得注意的是,解决ViTs中自注意机制所面临的挑战涉及到探索各种注意机制,包括空间和通道注意力。这些修改旨在提高计算效率,同时保持性能。
总之,增强ViT的结构对于实现CV中高效且可扩展的注意机制至关重要。大量的研究工作已经致力于探索注意力在CV中的实用性,从而在这个蓬勃发展的领域中产生了大量的贡献。因此,对现有文献的调查不仅有益而且及时。基于这个目标,本综述旨在全面介绍最新进展,并呈现CV中基于注意力的模型的整体视图。作者通过提出分类法,对技术创新和主要用例进行了表征,检查了视觉注意力的背景,并详细阐述了诸如变压器之类的知名架构。作者回顾了从各种CV应用中出现的关键技术,包括图像分割、配准、重建和分类。工作意图是识别新的研究机会,提供指导,并激发对于利用注意力网络进行CV的兴趣。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights
作者:Moein Heidari, Reza Azad, Sina Ghorbani Kolahi, René Arimond, Leon Niggemeier, Alaa Sulaiman, Afshin Bozorgpour, Ehsan Khodapanah Aghdam, Amirhossein Kazerouni, Ilker Hacihaliloglu, Dorit Merhof
原文链接:https://arxiv.org/abs/2403.19882
Github链接:https://github.com/xmindflow/Awesome-Attention-Mechanism-in-Medical-Imaging
2. 摘要
受人类视觉系统在复杂场景中识别显著区域的固有能力的启发,注意机制已经无缝地整合到各种计算机视觉(CV)任务中。借鉴这一范式,Vision Transformer(ViT)网络利用注意机制来提高效率。本综述探讨了ViTs中重新设计的注意机制的景观,旨在提高它们的性能。本文全面探讨了设计注意机制的技术和见解,系统地回顾了计算机视觉领域的最新文献。本调查从介绍注意机制的理论基础和基本概念开始。然后,我们提出了ViTs中各种注意机制的系统分类,采用重新设计的方法。基于它们的应用、目标和所应用的注意类型,提出了一种多角度的分类方法。分析包括对不同提出的策略的新颖性、优势、劣势的探索以及深入评估。这最终导致了突出关键属性和贡献的分类法的发展。最后,我们收集了审阅过的研究以及它们在我们的GitHub上的开源实现。我们的目标是定期更新它,以最新的相关论文。
3. 主要贡献
(1)通过提出一个统一的模型,系统全面地审查了注意机制的设计和直觉。这包括各自的分类法,以及对注意机制各个方面的讨论。
(2)目标是通过系统地检查转换网络中整合的各种注意机制,以优化其效率。作者将现有研究划分为四类:自注意力复杂度降低、分层变压器、通道和空间变压器、重新思考标记化以及其他。这种分类提供了对CV中不同设计技术的系统概览,特别是在ViTs中。这一探索还涵盖了各种CV任务的变压器架构的贡献。
(3)讨论了挑战和未解决问题,并确定了增强ViTs的背景下出现的趋势、开放性研究问题和未来方向。
4. 研究划分
作者将现有研究划分为四类:计算量降低、层次性、通道&空间、其他。
Transformer改进方案的总结。
不同注意力机制计算复杂度的比较。
Transformer发展的时间线。
5. 总结
这篇文章对现有文献的研究主要集中在优化方面ViT模型,特别强调了与自注意力模块相关的复杂性。作者对这些新的模型类中使用的基本方法进行了分类和高层抽象,并对各种高效的Transformer模型进行了广泛的概述。此外,作者讨论了这些模型的景观,使用对比表突出网络参数、FLOPS和其他因素,详细描述了它们的设计趋势和每个块的复杂性。作者对这一调查进行总结,指出研究趋势和未来方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、
无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、