专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

目录

相关文章推荐

机器之心 · 出人意料！DeepSeek-R1用的GRPO ... · 13 小时前

新智元 · 微软Muse秒生游戏登Nature，10亿级 ... · 昨天

机器之心 · 技术大神授课，百亿AI项目招标，2025全球 ... · 昨天

爱可可-爱生活 · 本文创新性地提出将 LLM ... · 昨天

AI前线 · 发论文亲自上？创业十多年，DeepSeek梁 ... · 2 天前

51好读 › 专栏 › 量子位

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

量子位 · 公众号 · AI · 2025-02-19 13:19

主要观点总结

DeepSeek新提出的注意力机制NSA引发讨论热潮。该机制旨在解决大模型上下文建模中计算成本高昂的问题，实验表明其能显著提高前向传播、反向传播和解码速度。论文介绍了NSA的核心方法，包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择等。研究人员用包含知识、推理和编码能力的多个通用基准测试验证了NSA的有效性。

关键观点总结

关键观点1: 新注意力机制NSA被提出

为了解决大模型上下文建模中计算成本高昂的问题，DeepSeek提出了名为NSA的可原生训练的稀疏注意力机制。

关键观点2: NSA的实验结果显著

实验表明，NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速，其中前向传播速度最高可提升9倍，反向传播速度最高可提升6倍，解码速度提升可达11.6倍。

关键观点3: NSA的核心方法

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。这些方法旨在减少计算量的同时，避免信息丢失，使模型在处理长序列时既高效又精准。

关键观点4: NSA的有效性得到验证

在包含知识、推理和编码能力的多个通用基准测试中，与全注意力模型相比，NSA模型性能不降反超，验证了NSA的有效性。

关键观点5: 评选报名活动

关于2025年值得关注的AIGC企业与产品的评选正在进行，结果将于4月中国AIGC产业峰会上公布。

正文

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek新注意力机制论文一出，再次引爆讨论热度。

依然是熟悉的画风，熟悉的味道——

那边马斯克疯狂烧了20万张卡训出Grok 3，这厢DeepSeek重点关注的依然是 压缩计算和推理成本 。

具体来说，新论文提出了一种可原生训练的稀疏注意力机制，名为 NSA （Native Sparse Attention）。

目的很明确：解决大模型上下文建模中，标准注意力机制造成的计算成本高昂的问题。

效果也很明显：

实验表明，在解码64k上下文时，基于softmax架构的注意力计算占到总延迟的70%-80%。而在不影响性能的前提下，NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速。

其中 前向传播速度最高可提升9倍，反向传播速度最高可提升6倍，解码速度提升可达11.6倍 。

正如不少网友提到的，NSA意味着DeepSeek找到了优化注意力的方法，可以用更少的算力更加高效地训练大模型，并且，他们还把这些“秘籍”公开了出来。

刚刚加入OpenAI不久的ViT核心作者Lucas Beyer也不禁开麦：粉了粉了。

另一点受到关注的是，这篇论文的作者可以说是DeepSeek系列大模型原班人马，梁文锋本人亦在其列——

论文还是梁文锋亲自传上arXiv的。

实现超快速长上下文训练推理

来看论文细节。

NSA的核心方法包括：

动态分层稀疏策略
粗粒度Token压缩
细粒度Token选择

整体框架上，NSA是用更紧凑的键值对替代原始注意力中的键值对，通过压缩、选择和滑动窗口（sliding window）三种映射策略得到优化注意力输出，保持高稀疏率。

采取分层设计的好处是：

减少计算量的同时，能有效避免信息丢失，是模型在处理长序列时既高效又精准。
能够在保证全局上下文感知的同时，精确捕捉局部信息，提升模型的表现。
可根据任务需求和上下文动态调整稀疏程度

具体到算法设计上， 粗粒度Token压缩 通过将连续的Token聚合成块级表示，可以捕获全局语义信息，同时减少注意力的计算负担。

细粒度Token选择 从序列中选择最重要的Token，保留关键的局部信息。

滑动窗口 则避免了局部模式的过度优势——在注意力机制中，局部模式往往会主导学习过程，阻止模型有效地从压缩和选择Token中学习。

为了实现以上创新，DeepSeek官方还强调了两方面的关键工作：

硬件对齐系统：针对张量核心利用率和内存访问优化块级稀疏注意力，确保均衡的算术强度。
训练感知设计：通过高效算法和向后运算符实现稳定的端到端训练。

研究人员用27B参数规模的模型进行了实验，结果显示，全注意力机制和NSA在预训练损失方面，都表现出了稳定的收敛性，并且NSA实现了更低的损失值。

在包含知识、推理和编码能力的多个通用基准测试中，与全注意力模型相比，NSA模型性能不降反超，在推理任务DROP中提升尤为明显。

长上下文方面，64k上下文的“大海捞针”测试里，NSA完美过关。

在需要复杂长下文推理的各项任务中，NSA的表现也基本超过了包括全注意力模型在内的基线模型。

而在思维链推理评估中，通过知识蒸馏和监督微调，在8k和16k上下文设置下，AIME任务中NSA-R的得分均超过了全注意力模型。

这表明，NSA预训练的稀疏注意力模式能有效捕捉长距离逻辑依赖，且其硬件对齐设计可支持不断增加的推理深度。

请到「今天看啥」查看全文

推荐文章

机器之心 · 出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

13 小时前

新智元 · 微软Muse秒生游戏登Nature，10亿级画面练出最强AI！千亿游戏市场重洗牌

昨天

机器之心 · 技术大神授课，百亿AI项目招标，2025全球开发者先锋大会等你来

昨天

爱可可-爱生活 · 本文创新性地提出将 LLM 与人类认知中的系统 1 和系统 2 -20250220060309

昨天

AI前线 · 发论文亲自上？创业十多年，DeepSeek梁文峰的“技术男”属性从没改变

2 天前

金错刀 · 最惨国民品牌：连续7季收入下滑，关店数百，未死已僵的反思：不加快速度会被干死

8 年前

军情战评 · 中俄军事合作“吓着”美国但离结盟很远

7 年前

星座不求人 · 十二星座谁会一举成名

7 年前

济宁7890后 · 今日入伏，祝你伏天健康快乐！三伏做好这8条，让你整年不生病！

7 年前

清华金融评论 · 王玉珍：工行已回收贷款被判返还过桥方的法律逻辑 | 华山论剑

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!