专栏名称: AI算法科研paper
每日更新人工智能行业技术干货、论文推荐、动态资讯、职场指南等AI知识。关注AI算法科研paper更深入了解人工智能。
目录
相关文章推荐
51好读  ›  专栏  ›  AI算法科研paper

Kimi“撞车”DeepSeek!新一代注意力机制的极限突破!

AI算法科研paper  · 公众号  ·  · 2025-03-04 19:05

正文

近期,各方大佬在 注意力机制 上又“打起来了”。首先登场的是顶流DeepSeek,新论文梁文锋署名,提出了一种新的注意力机制NSA。同天,Kimi杨植麟署名的新注意力架构MoBA开源。紧接着,华为诺亚提出高效选择注意力架构ESA。

这神仙打架的场面太震撼(论文解析在下文),同时也证明 注意力机制依然是2025最受追捧的研究热点之一 ,仍处于快速发展期,深度学习搞创新少不了。

这方向现有主流方法包括 稀疏注意力优化 (NSA和MoBA都属这类), 多尺度与跨层融合、硬件与算法协同优化 (如NSA的Triton内核)、 注意力机制变体扩展 。未来搞创新就需要结合跨学科理论和实际场景需求,可考虑动态稀疏性的深度探索、认知科学与类脑机制结合、可解释性与可控性增强等。

本文整理了 11种 新型注意力机制,以及 40+ 即插即用注意力模块 ,方便各位复现找灵感改模型,需要的速领。

扫码 添加小享,回复“ 注意力全新

免费获取 全部 文+开源代码

图片

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

方法: 论文研究了长上下文建模中稀疏注意力机制的设计,提出了一种名为NSA的原生可训练稀疏注意力机制,通过动态分层稀疏策略和硬件优化实现高效计算,在保留模型性能的同时减少了预训练开销。

创新点:

  • NSA通过动态分层稀疏策略结合粗粒度的token压缩和细粒度的token选择,提升了模型的全局上下文感知能力和局部精度。
  • 通过算术强度平衡的算法设计和现代硬件的实现优化,NSA在64k长度序列上的解码、前向传播和后向传播过程中,显著提高了计算速度。
  • NSA采用空间连续块的选择策略,基于硬件效率和注意力分数的固有分布模式进行设计。

MoBA: Mixture of Block Attention for Long-Context LLMs

方法: 本文介绍了一种新型注意力机制MoBA,通过将上下文分块并采用动态门控机制,有效降低了大规模语言模型处理长序列任务的计算复杂性,同时保持模型性能,显著提高了计算效率,并可无缝集成到现有模型中,成为增强长上下文处理能力的实用解决方案。

创新点:

  • MoBA 引入了一种新的注意力机制,将专家混合(MoE)的原则应用于注意力机制,而非传统的前馈网络层。
  • MoBA 架构中,作者探索了将上下文分割为更细粒度块的优势。
  • MoBA 的设计允许在全注意力与稀疏注意力之间进行平滑转换。在模型初始化阶段,每个注意力层可以选择使用全注意力或 MoBA,并在训练中根据需要动态调整。

扫码 添加小享,回复“







请到「今天看啥」查看全文