专栏名称: 知乎日报
提供最好的资讯评论,兼顾专业与趣味。
目录
相关文章推荐
知乎日报  ·  有哪些东西是被过度设计的? ·  5 小时前  
知乎日报  ·  想紧跟 AI 时代浪潮,看这一篇文章就够了 ·  5 小时前  
Quora文选英语  ·  Quora_有什么事儿是有孩子后才知道的?【 ... ·  昨天  
知乎日报  ·  一颗小行星可能在 8 ... ·  3 天前  
知乎日报  ·  知乎直答接入 DeepSeek,有哪些亮点? ·  3 天前  
51好读  ›  专栏  ›  知乎日报

梁文锋参与发表的 DeepSeek 新论文,会带来哪些影响?

知乎日报  · 公众号  · 问答  · 2025-02-19 21:00

正文

点击上方卡片关注👆

DeepSeek 新论文来了! 梁文锋以 co-authors 的身份出现在 DeepSeek 新发布的论文中。

DeepSeek 发布了 NSA(Native Sparse Attention):一种硬件对齐和本机可训练的稀疏注意力机制,用于超快的长上下文训练和推理!

NSA(Native Sparse Attention)为新型稀疏注意力机制。通过针对现代硬件的优化设计,NSA 可以加快推理速度,同时降低预训练成本,而不会影响性能。

NSA 是如何实现这一点的?对行业又会有什么影响呢? 一起来看看 人工智能领域优秀答主 @小小将 和答主 @ xcjthu 的回答吧。



梁文锋参与发表的 DeepSeek 新论文 NSA 注意力机制,有哪些信息值得关注?会带来哪些影响?


| 答主: 小小将

非常有价值的文章。

NSA(Native Sparse Attention, 原生稀疏注意力机制)要解决的是大模型长上下文建模(Long-context modeling)的问题。长上下文其实就是模型要处理的 tokens 数量很大,比如 128K 上下文,就是对应 128K 个 tokens。

对于 transformer 架构来 说,最核心的 self-attention 要 一次性处理很长的 token 序列所消耗的算力以及时间成本都很大,计算复杂度是 O(N^2)。

一个比较经济的办法就是用稀疏注意力机制:Sparse Attention,所谓 Sparse Attention 是相对原来的 Full Attention 来说的,Full Attention 是每个 token 都要和所有 tokens 计算,而 Sparse Attention 是只选择部分重要的 tokens 来计算。

Sparse Attention 是大家推理常用的策略,而 DeepSeek 这里提出的是 Native Sparse Attention,Native 是强调的是可训练的 Sparse Attention,而且设计了算法和硬件结合的技术来实现。

算法层面,NSA 通过将 attention 的 keys 和 values 组织成时间块,并通过三种注意力路径处理它们,从而减少了每次查询的计算量:压缩的粗粒度 token、选择性保留的细粒度 token 以及用于局部上下文信息的滑动窗口。

硬件层面,NSA 实现了专用内核以最大化其实际效率,具体有两个核心设计:

  • 硬件对齐系统:优化块状稀疏注意力机制,以提高 Tensor Core 的利用率和内存访问效率,确保算术强度的平衡。

  • 训练感知设计:通过高效的算法和反向传播算子,实现稳定的端到端训练。这种优化使 NSA 能够同时支持高效部署和端到端训练。

27B 的模型实验表明,使用 NSA 预训练的模型在通用基准测试、长上下文任务以及基于指令的推理中,保持或超越了全注意力模型的表现。同时,在 64K 长度的序列上,NSA 在解码、前向传播和后向传播过程中均实现了相对于全注意力的显著加速,验证了其在整个模型生命周期中的高效性。

所以,NSA 对于后面研发长上下文的大模型很有帮助,在不降低模型性能的基础上加速模型。

其实我想说的是,从 DeepSeek V3 就可以看到 DeepSeek 团队一直最重视的是高效训练,现在的 NSA 更是这方面的体现。

此外,Kimi 团队同时也发布了类似的工作 MoBA:长上下文大语言模型中的混合块注意力机制。(又和 DeepSeek 撞上了!之前 kimi k1.5 也是和 DeepSeek R1 撞了!)

MoBA 通过将混合专家系统(Mixture of Experts, MoE)与稀疏注意力相结合,彻底改变了长上下文处理在大型语言模型(LLMs)中的应用。MoBA 在保持高性能的同时实现了高效性,使长上下文任务的可扩展性达到了新的高度。而且,MoBA 的一大核心也是可训练的块稀疏注意力机制。

补充一点的是,稀疏注意力不仅可以用于 LLM,其实也可以应用在视觉生成模型 DiT 的加速。比如,
Hao AI Lab 就设计了滑动分块注意力机制(Sliding Tile Attention, STA)应用于视频 DiT 模型的
加速:

  • 将 3D 全注意力机制(FA3)加速高达 10 倍

  • 端到端时间从 16 分钟缩短至 5 分钟

  • 无需额外训练,且无质量损失!

其核心思路和 DeepSeek 的 NSA 以及 Kimi 的 MoBA 是类似的。



| 答主: xcjthu







请到「今天看啥」查看全文