专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
51好读  ›  专栏  ›  FightingCV

【ICML2024】通过动态可组合多头注意力改进Transformers

FightingCV  · 公众号  ·  · 2024-05-20 10:49

正文

关注“ FightingCV ”公众号

回复“ AI ”即可获得超100G人工智能的 教程

点击进入→ FightingCV交流群

多头注意力机制(Multi-Head Attention, MHA)是Transformer的关键组件之一。在MHA中,各个注意力头独立工作,这会导致一些问题,如注意力分数矩阵的低秩瓶颈和头部冗余。我们提出了动态可组合多头注意力机制(Dynamically Composable Multi-Head Attention, DCMHA),这是一种参数和计算高效的注意力架构,旨在解决MHA的缺点并通过动态组合注意力头来增强模型的表达能力。

DCMHA的核心概念

DCMHA的核心是一个Compose函数,该函数以输入为依赖动态变换注意力分数矩阵和权重矩阵。DCMHA可以作为MHA的直接替代品应用于任何Transformer架构,从而获得相应的DCFormer。DCFormer在不同架构和模型规模的语言模型任务中显著优于传统的Transformer,匹配计算量约为1.7至2.0倍的模型的性能。例如,DCPythia-6.9B在预训练困惑度和下游任务评估上均优于开源的Pythia-12B模型。

动态可组合多头注意力机制的优势

  1. 参数和计算效率 :DCMHA通过动态组合注意力头,在不显著增加参数和计算量的情况下,增强了模型的表达能力。
  2. 注意力矩阵的动态调整 :Compose函数能够根据输入动态调整注意力分数和权重矩阵,避免了传统MHA中的低秩瓶颈问题。
  3. 减少头部冗余 :通过动态组合,DCMHA能够有效减少注意力头的冗余,提升模型的整体性能。

实验结果

DCFormer在多种架构和模型规模的语言模型任务中表现出了优异的性能。例如,DCPythia-6.9B在预训练困惑度和下游任务评估上均优于开源的Pythia-12B模型,展示了动态可组合多头注意力机制的巨大潜力。

获取代码和模型

代码和模型可在以下链接获取: https://github.com/Caiyun-AI/DCFormer

通过引入DCMHA,我们能够有效提升Transformers在各种任务中的表现,使其成为更强大、更高效的深度学习模型。



往期回顾


基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)

【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)


最新论文解析

NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!

CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!

ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!







请到「今天看啥」查看全文


推荐文章
诗词天地  ·  人生十要,句句说到心坎
7 年前
神经电影局  ·  嫌疑人X:诚意有余,灵气不足。
7 年前
放射沙龙  ·  壶腹癌,你了解多少?
7 年前