专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
铅笔道  ·  江苏昆山夫妻卖电子产品配件:年入3.92亿 ·  8 小时前  
独角兽智库  ·  关于AI公务员 ·  2 天前  
51好读  ›  专栏  ›  独角兽智库

DeepSeek重磅发布!

独角兽智库  · 公众号  · 科技投资  · 2025-02-19 23:03

正文


独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时 9 年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了 固态电池、AI+ 等板块机会,个股 桂发祥、华胜天成、供销大集

现开放体验名额,加微信 :itouzi8888, 文末有二维码


就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果, DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)! 这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的进展!
图片
简单来说,论文的核心贡献如下:
LLM 长文本能力再突破!DeepSeek 发布原生稀疏注意力 NSA:硬件友好又高效,训推一体化!
废话不多说,我们一起来扒一扒这篇论文:

先了解一下论文的背景

近年来,我们见证了长文本建模在 AI 领域的重要性日益凸显。无论是深度推理、代码库生成、还是多轮对话,都离不开模型对长序列信息的有效处理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等,都展现了处理超长文本的强大潜力。
然而,传统 Attention 机制的计算复杂度随着序列长度的增加而呈平方级增长,这成为了制约 LLM 发展的关键瓶颈。 计算成本高昂,延迟成为问题, 如何在保证模型性能的同时,提升长文本处理的效率,成为了亟待解决的难题
稀疏注意力应运而生,它被认为是提升效率,同时维持模型能力的有希望的方向。DeepSeek 的 NSA 技术正是在这个方向上迈出了重要一步!

DeepSeek NSA:原生稀疏注意力,训推一体化,硬件友好

DeepSeek 提出的 NSA (Native Sparse Attention,原生稀疏注意力) 机制,巧妙地将算法创新与硬件优化相结合,旨在实现高效的长文本建模。
NSA 的核心亮点可以概括为以下两点:
1.动态分层稀疏策略: NSA 采用了一种动态分层的稀疏策略,结合了 粗粒度的 Token 压缩 细粒度的 Token 选择 。这种策略既能保证模型对全局上下文的感知,又能兼顾局部信息的精确性
2.两大关键创新:
算术强度平衡的算法设计与硬件优化: NSA 通过精巧的算法设计,并针对现代硬件进行了实现优化, 显著提升了计算速度
端到端可训练: NSA 支持 端到端训练 ,这意味着它不仅在推理阶段高效,还能减少预训练的计算量,同时不牺牲模型性能!
图片

实验效果惊艳:性能不降反升,速度大幅提升!

实验结果令人振奋!如图 1 所示,在通用基准测试、长文本任务和指令推理方面, 使用 NSA 预训练的模型性能不仅没有下降,反而超越了 Full Attention 模型!
更重要的是,在处理 64k 长度的序列时, NSA 在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达 11.6 倍! 这充分证明了 NSA 在模型生命周期各个阶段的效率优势
图片

现有稀疏注意力方法的局限性

论文也深入分析了现有稀疏注意力方法的局限性,主要体现在两个方面:
1.推理效率的“假象”: 很多方法虽然在理论上实现了稀疏计算,但在实际推理延迟方面提升有限。这主要是因为:
  • 阶段限制的稀疏性: 例如,有些方法只在自回归解码时应用稀疏性,但在预填充阶段仍然需要大量计算

  • 与先进 Attention 架构的不兼容性: 一些稀疏注意力方法难以适配像 MQA 和 GQA 这样的现代高效解码架构,导致内存访问瓶颈依然存在

2.可训练稀疏性的“神话”: 许多方法主要关注推理阶段的稀疏性,而忽略了训练阶段。这导致:
  • 性能退化: 后验应用稀疏性可能导致模型偏离预训练的优化轨迹。

  • 训练效率需求: 长序列训练对于提升模型能力至关重要,但现有方法在训练效率方面存在不足。

  • 不可训练的组件: 一些方法引入了不可微的离散操作,阻碍了梯度传播,限制了模型学习最佳稀疏模式的能力。

  • 反向传播效率低下: 一些理论上可训练的方法,在实际训练中效率低下,例如 Token 粒度的选择策略可能导致非连续的内存访问,影响硬件利用率。

NSA 的核心组件:分层稀疏,逐层优化

为了克服上述局限性,NSA 架构采用了分层 Token 建模,并通过三个并行的注意力分支处理输入序列:
  1. 1. 压缩注意力 (Compressed Attention): 处理粗粒度的模式,通过压缩 Token 块来捕获全局信息。

  2. 2. 选择注意力 (Selected Attention): 处理重要的 Token 块,选择性地保留细粒度的信息。

  3. 3. 滑动窗口注意力 (Sliding Window Attention): 处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA 还专门设计了硬件优化的 Kernel
图片

写在最后:

DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的 硬件友好设计 训推一体化特性 ,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。
这项研究无疑为稀疏注意力领域带来了新的思路和方向。未来,我们期待看到更多基于 NSA 技术的创新应用,共同推动 AI 技术的进步!
最后不得不在强调一下,梁文锋不仅是deepseek ceo,很明显他还在研究的最前沿参与研究,这是令我最震撼的,他不仅有管理能力,而且还真正的懂AI,deepseek前途无量
各路网友都在喊,这才是真正的OpenAI!

现开放投研情报群体验名额,更多投研情报服务,请往下看


独角兽投研情报会员服务

服务概述

现在的 A 骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大 A 各个生态阶层:

1 :公募核心圈,提前获取公募看好的大方向和主攻领域。

2 :券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3 :游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4 :产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的 A 股炒作逻辑。

服务内容

1 、大资金抱团动向

2 、集合竞价龙头早知道

3 、先手小作文

4 、券商主推方向及逻辑

5 、市场的机会和风向提示

6 、个骨和行业避雷

服务方式:

微信群 -- 只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式 (如果您关注短线交易)

请加微信: itouzi8888 ,备注: 体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信: itouzi5 ,备注: 体验+姓名+公司+职位







请到「今天看啥」查看全文