DeepSeek开源发布五大核心技术

架构师技术联盟 · 公众号 · · 2025-03-06 07:52

正文

本文来自“ DeepSeek开源周发布五大技术 ”，2025 年 2 月 21 日， DeepSeek 宣布将开展“开源周”，陆续开源 5 个代码库，这一举动被认为是 DeepSeek 开源战略的进一步升级。

内容来自“ DeepSeek技术报告合集 ”，参考原文提供全网最全DeepSeek报告“ 《210+份DeepSeek技术报告合集》 ”，严选精华技术报告，绝不以次充优，提供打包下载，内容持续更新. ..

1、FlashMLA 助力 AI 场景生成提速

2025 年 2 月 24 日， DeepSeek 启动“开源周”，首发开源项目 FlashMLA 为Hopper 架构 GPU （如 H800 ）设计的高效 MLA 解码内核，通过深度优化变长序列处理及分页 KV 缓存机制，显著提升大模型推理效率。

优化路径： 1 ） MLA 解码端： MLA 采用低秩联合压缩技术将多头注意力机制中的键（ Key ）和值（ Value ）矩阵投影到低维潜在空间，减少数据处理量，提高计算效率。 2 ）分页 KV 缓存优化， FlashMLA 将缓存数据分割成块大小为 64 token的小块，精细管理内存，有效减少显存碎片化现象。

算力表现： FlashMLA 借鉴了 FlashAttention-3 ，在 H800 平台上实现 3000GB/s数据吞吐与 580 TFLOPS 算力，接近 H100 上 Flash Attention 3 的 740 TFLOPS 。

FlashMLA 是 DeepSeek 针对 H800 优化的成果，相比 FlashAttention-2 ，性能提升接近 2 倍。

FlashMLA 降低显存占用和计算成本，通过开源鼓励开发者实现与现有加速框架的集成，提升了场景生成的速度。

2、DeepEP 助力 AI 专家高效协同

2025 年 2 月 25 日， DeepSeek 推出 EP 通信库，用于加速 MoE 模型训练和推理。 DeepEP 解决了在 GPU 之间分发和聚合 token 时的低效问题。

1 ）就性能而言， DeepEP 提供了高吞吐量和低延迟的 all- to- all GPU 内核，适合 MOE 分发和合并操作。其支持 FP8 和 FP16 等低精度数据格式，提升计算效率并降低内存需求。就网络环境优化， DeepSeek EP 针对 NVLink 到 RDMA 的非对称带宽转发场景进行了专项优化，增强了异构网络环境下的传输性能。

2 ）面向高吞吐量需求场景， DeepEP 借助 NVLink 与 RDMA 网络技术，实现GPU 间数据高效转发。内节点通信采用 NVLink 时，在分发与合并操作的瓶颈带宽达分别是 153GB/s 和 158GB/s 。跨节点通信运用 RDMA ，随 EP 数量增加，分发和合并的瓶颈带宽稳定在 43 - 46GB/s 。

3 ）针对延迟敏感型推理解码场景， DeepEP 包括一组具有纯 RDMA 的低延迟内核，以最大限度地减少延迟。在处理 8 个专家的场景时，分发操作的延迟为163 us ，合并操作延迟 318 us 。伴随专家数目增加，延迟相应上升。

DeepSeek 推出的 EP 通信库通过系统性技术革新，突破了对高端 GPU 硬件的依赖路径，优化了 MoE 模型的分布式训练与推理效能。

4、DeepGEMM 革新矩阵运算

AI 大模型需要处理海量矩阵乘法运算，传统方法在处理速度保证精度上存在瓶颈。 DeepGEMM 是一个专为 FP8 通用矩阵设计的库，具备 DeepSeek-V3 的精细化缩放能力，用以驱动 V3/R1 模型的训练和推理。

1 ） DeepGEMM 相较于与传统的矩阵加速库不仅安装简单，核心内核函数仅仅 300 行，大大降低用户的使用门槛。该数据库基于 CUDA 编写，用户通过轻量化的即时编译（ JIT ）板块，在运行时动态编译所有内核。

2 ） DeepSeek 在使用 NVCC 12.8 的 H800 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状。从测试结果所得， DeepGEMM 计算性能可达到 1358 TFLOPS ，内存宽带最高可达 2668 GB/s 。加速比方面， GEMM 与基于 CUTLASS 3.6 的优化相比，最高可达 2.7 倍。

3 ）此外，分组 GEMM （ MoE 模型）中连续性布局下可提速多达 1.2 倍。

在 AI 硬件被认为有 " 护城河 " 的今天， DeepSeek 精心设计的 DeepGEMM, 充分彰显出软件层面优化所蕴含的潜能。

4、DualPipe、EPLB 协同实现 AI 效率飞跃

开源周第四天， DeepSeek 推出了 Optimized Parallelism Strategies 。这是一个专注于优化并行计算策略的开源框架，其核心技术涵盖 DualPipe （双向管道并行算法和 EPLB

DeepSeek开源发布五大核心技术

正文

请到「今天看啥」查看全文