就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果,
DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)!
这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的进展!
简单来说,论文的核心贡献如下:
LLM 长文本能力再突破!DeepSeek 发布原生稀疏注意力 NSA:硬件友好又高效,训推一体化!
废话不多说,我们一起来扒一扒这篇论文:
先了解一下论文的背景
近年来,我们见证了长文本建模在 AI 领域的重要性日益凸显。无论是深度推理、代码库生成、还是多轮对话,都离不开模型对长序列信息的有效处理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等,都展现了处理超长文本的强大潜力。
然而,传统 Attention 机制的计算复杂度随着序列长度的增加而呈平方级增长,这成为了制约 LLM 发展的关键瓶颈。
计算成本高昂,延迟成为问题,
如何在保证模型性能的同时,提升长文本处理的效率,成为了亟待解决的难题
稀疏注意力应运而生,它被认为是提升效率,同时维持模型能力的有希望的方向。DeepSeek 的 NSA 技术正是在这个方向上迈出了重要一步!
DeepSeek NSA:原生稀疏注意力,训推一体化,硬件友好
DeepSeek 提出的
NSA (Native Sparse Attention,原生稀疏注意力)
机制,巧妙地将算法创新与硬件优化相结合,旨在实现高效的长文本建模。
NSA 的核心亮点可以概括为以下两点:
1.动态分层稀疏策略:
NSA 采用了一种动态分层的稀疏策略,结合了
粗粒度的 Token 压缩
和
细粒度的 Token 选择
。这种策略既能保证模型对全局上下文的感知,又能兼顾局部信息的精确性
2.两大关键创新:
算术强度平衡的算法设计与硬件优化:
NSA 通过精巧的算法设计,并针对现代硬件进行了实现优化,
显著提升了计算速度
端到端可训练:
NSA 支持
端到端训练
,这意味着它不仅在推理阶段高效,还能减少预训练的计算量,同时不牺牲模型性能!
💪 实验效果惊艳:性能不降反升,速度大幅提升!
实验结果令人振奋!如图 1 所示,在通用基准测试、长文本任务和指令推理方面,
使用 NSA 预训练的模型性能不仅没有下降,反而超越了 Full Attention 模型!
更重要的是,在处理 64k 长度的序列时,
NSA 在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达 11.6 倍!
这充分证明了 NSA 在模型生命周期各个阶段的效率优势