近期,各方大佬在
注意力机制
上又“打起来了”。首先登场的是顶流DeepSeek,新论文梁文锋署名,提出了一种新的注意力机制NSA。同天,Kimi杨植麟署名的新注意力架构MoBA开源。紧接着,华为诺亚提出高效选择注意力架构ESA。
这神仙打架的场面太震撼(论文解析在下文),同时也证明
注意力机制依然是2025最受追捧的研究热点之一
,仍处于快速发展期,深度学习搞创新少不了。
这方向现有主流方法包括
稀疏注意力优化
(NSA和MoBA都属这类),
多尺度与跨层融合、硬件与算法协同优化
(如NSA的Triton内核)、
注意力机制变体扩展
。未来搞创新就需要结合跨学科理论和实际场景需求,可考虑动态稀疏性的深度探索、认知科学与类脑机制结合、可解释性与可控性增强等。
本文整理了
11种
新型注意力机制,以及
40+
即插即用注意力模块
,方便各位复现找灵感改模型,需要的速领。
扫码
添加小享,回复“
注意力全新
”
免费获取
全部
论
文+开源代码
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
方法:
论文研究了长上下文建模中稀疏注意力机制的设计,提出了一种名为NSA的原生可训练稀疏注意力机制,通过动态分层稀疏策略和硬件优化实现高效计算,在保留模型性能的同时减少了预训练开销。
创新点:
-
NSA通过动态分层稀疏策略结合粗粒度的token压缩和细粒度的token选择,提升了模型的全局上下文感知能力和局部精度。
-
通过算术强度平衡的算法设计和现代硬件的实现优化,NSA在64k长度序列上的解码、前向传播和后向传播过程中,显著提高了计算速度。
-
NSA采用空间连续块的选择策略,基于硬件效率和注意力分数的固有分布模式进行设计。
MoBA: Mixture of Block Attention for Long-Context LLMs
方法:
本文介绍了一种新型注意力机制MoBA,通过将上下文分块并采用动态门控机制,有效降低了大规模语言模型处理长序列任务的计算复杂性,同时保持模型性能,显著提高了计算效率,并可无缝集成到现有模型中,成为增强长上下文处理能力的实用解决方案。
创新点:
-
MoBA 引入了一种新的注意力机制,将专家混合(MoE)的原则应用于注意力机制,而非传统的前馈网络层。
-
MoBA 架构中,作者探索了将上下文分割为更细粒度块的优势。
-
MoBA 的设计允许在全注意力与稀疏注意力之间进行平滑转换。在模型初始化阶段,每个注意力层可以选择使用全注意力或 MoBA,并在训练中根据需要动态调整。
扫码
添加小享,回复“