本文来自“
DeepSeek开源周发布五大技术
”,2025
年
2
月
21
日,
DeepSeek
宣布将开展“开源周”,陆续开源
5
个代码库,这一举动被认为是
DeepSeek
开源战略的进一步升级。
内容来自“
DeepSeek技术报告合集
”,参考原文提供全网最全DeepSeek报告“
《210+份DeepSeek技术报告合集》
”,严选精华技术报告,
绝不以次充优,提供打包下载,内容持续更新.
..
1、FlashMLA 助力 AI 场景生成提速
2025
年
2
月
24
日,
DeepSeek
启动“开源周”,首发开源项目
FlashMLA
为Hopper
架构
GPU
(如
H800
)设计的高效
MLA
解码内核,通过深度优化变长序列处理及分页
KV
缓存机制,显著提升大模型推理效率。
优化路径
:
1
)
MLA
解码端:
MLA
采用低秩联合压缩技术将多头注意力机制中的键(
Key
)和值(
Value
)矩阵投影到低维潜在空间,减少数据处理量,提高计算效率。
2
)分页
KV
缓存优化,
FlashMLA
将缓存数据分割成块大小为
64 token的小块,精细管理内存,有效减少显存碎片化现象。
算力表现
:
FlashMLA
借鉴了
FlashAttention-3
,在
H800
平台上实现
3000GB/s数据吞吐与
580 TFLOPS
算力,接近
H100
上
Flash Attention 3
的
740 TFLOPS
。
FlashMLA
是
DeepSeek
针对
H800
优化的成果,相比
FlashAttention-2
,性能提升接近
2
倍。
FlashMLA
降低显存占用和计算成本,通过开源鼓励开发者实现与现有加速框架的集成,提升了场景生成的速度。
2、DeepEP 助力 AI 专家高效协同
2025
年
2
月
25
日,
DeepSeek
推出
EP
通信库,用于加速
MoE
模型训练和推理。
DeepEP
解决了在
GPU
之间分发和聚合
token
时的低效问题。
1
)
就性能而言
,
DeepEP
提供了高吞吐量和低延迟的
all- to- all GPU
内核,适合
MOE
分发和合并操作。其支持
FP8
和
FP16
等低精度数据格式,提升计算效率并降低内存需求。就网络环境优化,
DeepSeek EP
针对
NVLink
到
RDMA
的非对称带宽转发场景进行了专项优化,增强了异构网络环境下的传输性能。
2
)
面向高吞吐量需求场景
,
DeepEP
借助
NVLink
与
RDMA
网络技术,实现GPU
间数据高效转发。内节点通信采用
NVLink
时,在分发与合并操作的瓶颈带宽达分别是
153GB/s
和
158GB/s
。跨节点通信运用
RDMA
,随
EP
数量增加,分发和合并的瓶颈带宽稳定在
43 - 46GB/s
。
3
)
针对延迟敏感型推理解码场景
,
DeepEP
包括一组具有纯
RDMA
的低延迟内核,以最大限度地减少延迟。在处理
8
个专家的场景时,分发操作的延迟为163 us
,合并操作延迟
318 us
。伴随专家数目增加,延迟相应上升。
DeepSeek
推出的
EP
通信库通过系统性技术革新,突破了对高端
GPU
硬件的依赖路径,优化了
MoE
模型的分布式训练与推理效能。
4、DeepGEMM 革新矩阵运算
AI
大模型需要处理海量矩阵乘法运算,传统方法在处理速度保证精度上存在瓶颈。
DeepGEMM
是一个专为
FP8
通用矩阵设计的库,具备
DeepSeek-V3
的精细化缩放能力,用以驱动
V3/R1
模型的训练和推理。
1
)
DeepGEMM
相较于与传统的矩阵加速库不仅安装简单,核心内核函数仅仅
300
行,大大降低用户的使用门槛。该数据库基于
CUDA
编写,用户通过轻量化的即时编译(
JIT
)板块,在运行时动态编译所有内核。
2
)
DeepSeek
在使用
NVCC 12.8
的
H800
测试了
DeepSeek-V3/R1
推理中可能使用的所有形状。从测试结果所得,
DeepGEMM
计算性能可达到
1358 TFLOPS
,内存宽带最高可达
2668 GB/s
。加速比方面,
GEMM
与基于
CUTLASS 3.6
的优化相比,最高可达
2.7
倍。
3
)此外,分组
GEMM
(
MoE
模型)中连续性布局下可提速多达
1.2
倍。
在
AI
硬件被认为有
"
护城河
"
的今天,
DeepSeek
精心设计的
DeepGEMM,
充分彰显出软件层面优化所蕴含的潜能。
4、DualPipe、EPLB 协同实现 AI 效率飞跃
开源周第四天,
DeepSeek
推出了
Optimized Parallelism Strategies
。这是一个专注于优化并行计算策略的开源框架,其核心技术涵盖
DualPipe
(双向管道并行算法和
EPLB