专栏名称: 华泰睿思
华泰证券研究所微信公众号,致力于为投资者提供研究团队的最新研究成果,推介优质研报,并预告最新的联合调研、专题会议等活动。
目录
相关文章推荐
中国证券报  ·  深夜,中国资产大涨 ·  昨天  
中国证券报  ·  大涨超14%!阿里发布业绩 ·  昨天  
上海证券报  ·  汽车零部件公司“跨界” ·  昨天  
上海证券报  ·  马化腾最新发声 ·  昨天  
上海证券报  ·  李彦宏最新发声 ·  3 天前  
51好读  ›  专栏  ›  华泰睿思

华泰 | DeepSeek NSA:算法创新或加速训练与CUDA解耦

华泰睿思  · 公众号  · 证券  · 2025-02-21 07:11

主要观点总结

本文介绍了DeepSeek发布的论文NSA(原生稀疏注意力),该论文在Transformer架构的Attention环节进行了优化,提高了效率和速度。文章还讨论了国内外在大模型迭代思路上的差异,以及软硬件优化在LLM中的作用。最后,提醒了AI技术迭代和商业化落地的风险。

关键观点总结

关键观点1: DeepSeek发布论文NSA,优化Transformer架构的Attention环节。

NSA通过稀疏KV的方式提升效率,实现了6-12x的速度提升。

关键观点2: 国内外在大模型迭代思路上存在差异。

海外追求Top 1的极致模型性能,以充足的算力优势为主;国内则在算法和硬件上极致优化,以有限的算力追求更高的性能。

关键观点3: NSA在算法和硬件上的优化。

NSA不仅优化软件算法,还优化了硬件Kernel,以实现更高效的软硬件编排。按照分组注意力GQA进行Kernel的优化,并结合DeepSeek-V3进行硬件优化。

关键观点4: DeepSeek NSA与CUDA解耦的趋势。

DeepSeek在V3中使用了PTX来优化硬件算法,而NSA则使用Triton编程语言高效编写GPU代码。这显示出DeepSeek NSA有初步与CUDA解耦的趋势,为后续适配更多类型的算力芯片奠定基础。

关键观点5: 风险提示。

需要注意AI技术迭代和商业化落地的风险。如果AI技术迭代不及预期,AI应用功能进展和商业化节奏可能会受到影响。


正文

点击小程序查看研报原文



核心观点

DeepSeek发布论文NSA(原生稀疏注意力,Native Sparse Attention),继续在Transformer架构的重要环节——Attention进行优化,不仅在效果上和传统的Full Attention可比/领先,而且在解码、前向/后向传播上有6-12x的速度提升。结合xAI发布的Grok-3来看,目前海外和国内在大模型迭代思路上采取的是不同的思想,海外虽也引入MoE路线降低训练成本,但总体仍以充足的算力优势,追求Top 1的极致模型性能;而国内则在算法和硬件上极致优化,重点以有限的算力搏得更高的性能,追求推理效率。我们认为,两者并不冲突,而是共同从训练和推理两方面带动算力整体需求的提升。


NSA:继续优化Transformer Attention,通过稀疏KV的方式提升效率

与DeepSeek V2/V3用MLA(Multi-head Latent Attention)优化方向类似,NSA依然是在优化Attention上下功夫,以减少Attention的复杂度。区别在于,MLA是把KV Cache进行压缩,NSA是把KV进行了“三层级”划分,并从中有选择性的舍弃掉一部分,达到“稀疏”效果,提高效率。1)粗层级:做大规模压缩,例如8个KV压成1个;2)细层级:从粗层级中找到重要的部分,再细粒度的选择重要的KV,丢掉不重要的KV;3)小窗口层级:通过滑窗的形式,聚焦当下的局部上下文KV信息。这“三层级”算法融合后输出,得到最终的Attention结果。


软件优化叠加硬件优化,两手都要硬

NSA不仅优化软件算法,还优化了硬件Kernel,以配合NSA的稀疏Attention,实现更高效的软硬件编排。具体Kernel的优化方法是,按照分组注意力GQA(Grouped Query Attention),从HBM中加载Q(uery)到SRAM中,并在SRAM中计算Q(uery)K(ey)V(alue)注意力,然后将结果放回到HBM中。结合DeepSeek-V3来看,V3同样进行了计算通信重叠、内存占用等硬件优化,我们认为,未来国内对于LLM优化的相当一部分重点将在于硬件编排优化,本质是提高硬件的MFU(model FLOPS utilization)。


海外靠大算力突破边界,国内靠细优化提升效率

结合xAI发布的Grok-3,xAI已经将10万卡集群扩展到20万,确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek,10万卡 vs 万卡,Grok-3相比R1在某些测评集上提高了20%左右效果,是否有性价比?我们认为,这并不冲突。1)海外要的是技术路径领先和商业化闭源,只有靠堆算力才能试错,才能突破边界,才能保持领先。2)国内要的是在已知路径上实现最优解,用有限的卡实现更高的效率,“精耕细作”的软硬件优化是必修课。我们认为,这是国内外路径的选择问题,而整体看,训练/推理算力都是较为确定的增量。


DeepSeek 有望加速模型训练与 CUDA 解耦

DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA 编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。而 NSA 则使用了OpenAl提出的Triton编程语言高效编写 GPU 代码,Triton 的底层可调用CUDA,也可调用其他GPU语言,包括AMD的rocm以及国产算力芯片语言,如寒武纪的思元590芯片和海光信息的深算一号(DCU)内置的HYGON ISA指令集。LLM的训练短期内虽未完全脱离CUDA 生态,但DeepSeek NSA的推出使其初步呈现出与CUDA 解耦的趋势,并为后续适配更多类型的算力芯片奠定基础。以异腾为代表的国产算力已经很好的适配了 DeepSeek-R1 等国产模型,并取得了高效推理的效果。我们认为,伴随海外算力的受限,针对国产算力的优化或将有持续进展,值得重视。


风险提示:AI技术迭代不及预期,AI商业化落地不及预期。









风险提示

AI 技术迭代不及预期。 若AI技术迭代不及预期,AI应用功能进展存在低于预期的风险,AI应用商业化节奏或受到拖累。


AI 商业化不及预期。 若AI商业化节奏不及预期,AI产业链的商业闭环可能存在不达预期的风险,AI业务的持续性或面临压力。


本报告基于客观信息整理,不构成投资建议。


相关研报

研报:《 DeepSeek NSA:算法创新或加速训练与CUDA解耦 》2025年2月20日

谢春生 分析师 S0570519080006 | BQZ938

袁泽世 分析师 S0570524090001


关注我们


华泰证券研究所国内站(研究Portal)

https://inst.htsc.com/research

访问权限:国内机构客户


华泰证券研究所海外站

https://intl.inst.htsc.com/research







请到「今天看啥」查看全文


推荐文章
中国证券报  ·  深夜,中国资产大涨
昨天
中国证券报  ·  大涨超14%!阿里发布业绩
昨天
上海证券报  ·  汽车零部件公司“跨界”
昨天
上海证券报  ·  马化腾最新发声
昨天
上海证券报  ·  李彦宏最新发声
3 天前
冯站长之家  ·  2017年3月5日历史上的今天(语音版)
7 年前
互联网分析师  ·  我的青春不该如此毫无尊严
7 年前