专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
财宝宝  ·  菜菜,我是深深妹子。 ... ·  6 小时前  
河北交通广播  ·  【992 | ... ·  20 小时前  
搜狐房产广州  ·  广州一楼盘3折卖房?噱头! ·  2 天前  
搜狐房产广州  ·  广州一楼盘3折卖房?噱头! ·  2 天前  
财宝宝  ·  这家伙是不是应该关进去几年?-2025021 ... ·  2 天前  
财宝宝  ·  @财珊珊33 -20250212132608 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

视觉Transformer还有哪些点可以研究?怎么应用?

计算机视觉工坊  · 公众号  ·  · 2024-04-27 00:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

今天笔者为大家推荐一篇最新的综述,详细总结了Transformer的网络架构、优化策略、发展方向,还会定期更新Github,研究注意力机制的小伙伴一定不要错过。

注意机制有助于人类视觉系统有效地分析和理解复杂场景,它能够聚焦于图像的关键区域,同时忽略无关紧要的部分。受此概念启发,注意机制已经被引入到计算机视觉(CV)中,以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于与目标任务相关的重要区域,同时忽略不重要的区域。

标准的自注意机制在ViTs中的使用受到了二次计算和内存复杂性的限制,这限制了它处理高分辨率输入并扩展到下游任务的能力。此外,为CV设计Transformer需要一种自适应策略来捕获分层特征描述。这种适应是必要的,因为视觉数据中感兴趣的对象通常具有不同的形状和尺度,需要一种灵活的方法来准确表示和分析遇到的各种视觉模式。此外,ViTs中的标记化过程在提高计算效率方面起着关键作用。对标记化方法(例如重新采样技术)进行仔细考虑和优化,对ViT模型的整体性能有着重要的贡献。高效的标记化不仅有助于更好地计算,还提高了模型处理多样化输入数据的效率。此外,值得注意的是,解决ViTs中自注意机制所面临的挑战涉及到探索各种注意机制,包括空间和通道注意力。这些修改旨在提高计算效率,同时保持性能。

总之,增强ViT的结构对于实现CV中高效且可扩展的注意机制至关重要。大量的研究工作已经致力于探索注意力在CV中的实用性,从而在这个蓬勃发展的领域中产生了大量的贡献。因此,对现有文献的调查不仅有益而且及时。基于这个目标,本综述旨在全面介绍最新进展,并呈现CV中基于注意力的模型的整体视图。作者通过提出分类法,对技术创新和主要用例进行了表征,检查了视觉注意力的背景,并详细阐述了诸如变压器之类的知名架构。作者回顾了从各种CV应用中出现的关键技术,包括图像分割、配准、重建和分类。工作意图是识别新的研究机会,提供指导,并激发对于利用注意力网络进行CV的兴趣。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights

作者:Moein Heidari, Reza Azad, Sina Ghorbani Kolahi, René Arimond, Leon Niggemeier, Alaa Sulaiman, Afshin Bozorgpour, Ehsan Khodapanah Aghdam, Amirhossein Kazerouni, Ilker Hacihaliloglu, Dorit Merhof

原文链接:https://arxiv.org/abs/2403.19882

Github链接:https://github.com/xmindflow/Awesome-Attention-Mechanism-in-Medical-Imaging

2. 摘要

受人类视觉系统在复杂场景中识别显著区域的固有能力的启发,注意机制已经无缝地整合到各种计算机视觉(CV)任务中。借鉴这一范式,Vision Transformer(ViT)网络利用注意机制来提高效率。本综述探讨了ViTs中重新设计的注意机制的景观,旨在提高它们的性能。本文全面探讨了设计注意机制的技术和见解,系统地回顾了计算机视觉领域的最新文献。本调查从介绍注意机制的理论基础和基本概念开始。然后,我们提出了ViTs中各种注意机制的系统分类,采用重新设计的方法。基于它们的应用、目标和所应用的注意类型,提出了一种多角度的分类方法。分析包括对不同提出的策略的新颖性、优势、劣势的探索以及深入评估。这最终导致了突出关键属性和贡献的分类法的发展。最后,我们收集了审阅过的研究以及它们在我们的GitHub上的开源实现。我们的目标是定期更新它,以最新的相关论文。

3. 主要贡献

(1)通过提出一个统一的模型,系统全面地审查了注意机制的设计和直觉。这包括各自的分类法,以及对注意机制各个方面的讨论。

(2)目标是通过系统地检查转换网络中整合的各种注意机制,以优化其效率。作者将现有研究划分为四类:自注意力复杂度降低、分层变压器、通道和空间变压器、重新思考标记化以及其他。这种分类提供了对CV中不同设计技术的系统概览,特别是在ViTs中。这一探索还涵盖了各种CV任务的变压器架构的贡献。

(3)讨论了挑战和未解决问题,并确定了增强ViTs的背景下出现的趋势、开放性研究问题和未来方向。

4. 研究划分

作者将现有研究划分为四类:计算量降低、层次性、通道&空间、其他。

Transformer改进方案的总结。

不同注意力机制计算复杂度的比较。

Transformer发展的时间线。

5. 总结

这篇文章对现有文献的研究主要集中在优化方面ViT模型,特别强调了与自注意力模块相关的复杂性。作者对这些新的模型类中使用的基本方法进行了分类和高层抽象,并对各种高效的Transformer模型进行了广泛的概述。此外,作者讨论了这些模型的景观,使用对比表突出网络参数、FLOPS和其他因素,详细描述了它们的设计趋势和每个块的复杂性。作者对这一调查进行总结,指出研究趋势和未来方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网: www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、







请到「今天看啥」查看全文