2025年还能靠改注意力机制发论文吗?姚期智大佬团队给出了答案,他们提出了一种新型注意力机制TPA,节省了90%内存占用但不降性能,一统了现代注意力设计!
可以看出,现在简单的改层数对于注意力机制来说已经不算创新了,我们需要思考更多...这里就建议大家考虑
多头注意力机制、注意力机制融合、层次注意力机制、跳过连接和注意力门控、自适应注意力权重
等思路,上述姚院士团队的方法就属于多头注意力机制的改进,同时也与自适应注意力权重相关。
如果大家感兴趣,可以看看最新的前沿成果找找灵感,我这边也已经帮同学们整理好了
40个
注意力机制创新方案
,不想多花时间找资料的可以直接拿,也欢迎大家分享本文给好友同学~
扫码添加小享,
回复“
40注意
”
免费获取
全部论文+开源代码
Tensor Product Attention is All You Need
方法:论文提出了一种新的注意力机制——张量乘积注意力(TPA),通过对查询、键和值进行低秩张量分解,显著减少推理时的KV缓存大小,并提高模型质量,提出的Tensor ProducT ATTenTion Transformer (T6) 架构在多个语言建模任务中超越了传统Transformer基线(如MHA, MQA, GQA等)。
创
新点:
-
新注意力机制TPA:通过张量分解减少内存占用,提升性能。
-
新模型架构T6:基于TPA,语言建模任务表现优异,长序列处理更具优势。
-
统一框架:TPA可视为多种现有注意力机制的特例,提供通用框架。
Restoring Images in Adverse Weather Conditions via Histogram Transformer
方法:
本研究提出了一种新的直方图自注意力机制和直方图Transformer(Histoformer),通过动态范围空间注意力自适应聚焦于气象降解模式,解决所有天气去除问题,并通过广泛实验验证了其在多范围和多尺度信息学习中的有效性和优越性。
创新点:
-
引入了动态范围空间注意力,使模型能够自适应地关注具有相似模式的天气诱导退化。
-
提出了直方图自注意力机制,通过将空间特征划分为多个bins,并沿着bin或频率维度分配不同的注意力,选择性地关注天气相关特征。
-
为了捕捉多范围信息,开发了双尺度门控前馈模块(DGFF)。
扫码添加小享,
回复“
40注意