华泰 | DeepSeek NSA：算法创新或加速训练与CUDA解耦

华泰睿思 · 公众号 · 证券 · 2025-02-21 07:11

主要观点总结

本文介绍了DeepSeek发布的论文NSA（原生稀疏注意力），该论文在Transformer架构的Attention环节进行了优化，提高了效率和速度。文章还讨论了国内外在大模型迭代思路上的差异，以及软硬件优化在LLM中的作用。最后，提醒了AI技术迭代和商业化落地的风险。

关键观点总结

关键观点1: DeepSeek发布论文NSA，优化Transformer架构的Attention环节。

NSA通过稀疏KV的方式提升效率，实现了6-12x的速度提升。

关键观点2: 国内外在大模型迭代思路上存在差异。

海外追求Top 1的极致模型性能，以充足的算力优势为主；国内则在算法和硬件上极致优化，以有限的算力追求更高的性能。

关键观点3: NSA在算法和硬件上的优化。

NSA不仅优化软件算法，还优化了硬件Kernel，以实现更高效的软硬件编排。按照分组注意力GQA进行Kernel的优化，并结合DeepSeek-V3进行硬件优化。

关键观点4: DeepSeek NSA与CUDA解耦的趋势。

DeepSeek在V3中使用了PTX来优化硬件算法，而NSA则使用Triton编程语言高效编写GPU代码。这显示出DeepSeek NSA有初步与CUDA解耦的趋势，为后续适配更多类型的算力芯片奠定基础。

关键观点5: 风险提示。

需要注意AI技术迭代和商业化落地的风险。如果AI技术迭代不及预期，AI应用功能进展和商业化节奏可能会受到影响。

正文

点击小程序查看研报原文

核心观点

DeepSeek发布论文NSA（原生稀疏注意力，Native Sparse Attention），继续在Transformer架构的重要环节——Attention进行优化，不仅在效果上和传统的Full Attention可比/领先，而且在解码、前向/后向传播上有6-12x的速度提升。结合xAI发布的Grok-3来看，目前海外和国内在大模型迭代思路上采取的是不同的思想，海外虽也引入MoE路线降低训练成本，但总体仍以充足的算力优势，追求Top 1的极致模型性能；而国内则在算法和硬件上极致优化，重点以有限的算力搏得更高的性能，追求推理效率。我们认为，两者并不冲突，而是共同从训练和推理两方面带动算力整体需求的提升。

NSA：继续优化Transformer Attention，通过稀疏KV的方式提升效率

与DeepSeek V2/V3用MLA（Multi-head Latent Attention）优化方向类似，NSA依然是在优化Attention上下功夫，以减少Attention的复杂度。区别在于，MLA是把KV Cache进行压缩，NSA是把KV进行了“三层级”划分，并从中有选择性的舍弃掉一部分，达到“稀疏”效果，提高效率。1）粗层级：做大规模压缩，例如8个KV压成1个；2）细层级：从粗层级中找到重要的部分，再细粒度的选择重要的KV，丢掉不重要的KV；3）小窗口层级：通过滑窗的形式，聚焦当下的局部上下文KV信息。这“三层级”算法融合后输出，得到最终的Attention结果。

软件优化叠加硬件优化，两手都要硬

NSA不仅优化软件算法，还优化了硬件Kernel，以配合NSA的稀疏Attention，实现更高效的软硬件编排。具体Kernel的优化方法是，按照分组注意力GQA（Grouped Query Attention），从HBM中加载Q(uery)到SRAM中，并在SRAM中计算Q(uery)K(ey)V(alue)注意力，然后将结果放回到HBM中。结合DeepSeek-V3来看，V3同样进行了计算通信重叠、内存占用等硬件优化，我们认为，未来国内对于LLM优化的相当一部分重点将在于硬件编排优化，本质是提高硬件的MFU（model FLOPS utilization）。

海外靠大算力突破边界，国内靠细优化提升效率

结合xAI发布的Grok-3，xAI已经将10万卡集群扩展到20万，确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek，10万卡 vs 万卡，Grok-3相比R1在某些测评集上提高了20%左右效果，是否有性价比？我们认为，这并不冲突。1）海外要的是技术路径领先和商业化闭源，只有靠堆算力才能试错，才能突破边界，才能保持领先。2）国内要的是在已知路径上实现最优解，用有限的卡实现更高的效率，“精耕细作”的软硬件优化是必修课。我们认为，这是国内外路径的选择问题，而整体看，训练/推理算力都是较为确定的增量。

DeepSeek 有望加速模型训练与 CUDA 解耦

DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法，PTX是CUDA 编译的中间代码，在CUDA和最终机器码之间起到桥梁作用。而 NSA 则使用了OpenAl提出的Triton编程语言高效编写 GPU 代码，Triton 的底层可调用CUDA，也可调用其他GPU语言，包括AMD的rocm以及国产算力芯片语言，如寒武纪的思元590芯片和海光信息的深算一号（DCU）内置的HYGON ISA指令集。LLM的训练短期内虽未完全脱离CUDA 生态，但DeepSeek NSA的推出使其初步呈现出与CUDA 解耦的趋势，并为后续适配更多类型的算力芯片奠定基础。以异腾为代表的国产算力已经很好的适配了 DeepSeek-R1 等国产模型，并取得了高效推理的效果。我们认为，伴随海外算力的受限，针对国产算力的优化或将有持续进展，值得重视。

风险提示：AI技术迭代不及预期，AI商业化落地不及预期。