专栏名称: 架构师技术联盟
分享项目实践,洞察前沿架构,聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。
目录
51好读  ›  专栏  ›  架构师技术联盟

DeepSeek开源发布五大核心技术

架构师技术联盟  · 公众号  ·  · 2025-03-06 07:52

正文


图片

本文来自“ DeepSeek开源周发布五大技术 ”,2025 2 21 日, DeepSeek 宣布将开展“开源周”,陆续开源 5 个代码库,这一举动被认为是 DeepSeek 开源战略的进一步升级。


内容来自“ DeepSeek技术报告合集 ”,参考原文提供全网最全DeepSeek报告“ 《210+份DeepSeek技术报告合集》 ”,严选精华技术报告, 绝不以次充优,提供打包下载,内容持续更新. ..


1、FlashMLA 助力 AI 场景生成提速

2025 2 24 日, DeepSeek 启动“开源周”,首发开源项目 FlashMLA 为Hopper 架构 GPU (如 H800 )设计的高效 MLA 解码内核,通过深度优化变长序列处理及分页 KV 缓存机制,显著提升大模型推理效率。

优化路径 1 MLA 解码端: MLA 采用低秩联合压缩技术将多头注意力机制中的键( Key )和值( Value )矩阵投影到低维潜在空间,减少数据处理量,提高计算效率。 2 )分页 KV 缓存优化, FlashMLA 将缓存数据分割成块大小为 64 token的小块,精细管理内存,有效减少显存碎片化现象。

算力表现 FlashMLA 借鉴了 FlashAttention-3 ,在 H800 平台上实现 3000GB/s数据吞吐与 580 TFLOPS 算力,接近 H100 Flash Attention 3 740 TFLOPS

FlashMLA DeepSeek 针对 H800 优化的成果,相比 FlashAttention-2 ,性能提升接近 2 倍。

FlashMLA 降低显存占用和计算成本,通过开源鼓励开发者实现与现有加速框架的集成,提升了场景生成的速度。

2、DeepEP 助力 AI 专家高效协同

2025 2 25 日, DeepSeek 推出 EP 通信库,用于加速 MoE 模型训练和推理。 DeepEP 解决了在 GPU 之间分发和聚合 token 时的低效问题。

1 就性能而言 DeepEP 提供了高吞吐量和低延迟的 all- to- all GPU 内核,适合 MOE 分发和合并操作。其支持 FP8 FP16 等低精度数据格式,提升计算效率并降低内存需求。就网络环境优化, DeepSeek EP 针对 NVLink RDMA 的非对称带宽转发场景进行了专项优化,增强了异构网络环境下的传输性能。

2 面向高吞吐量需求场景 DeepEP 借助 NVLink RDMA 网络技术,实现GPU 间数据高效转发。内节点通信采用 NVLink 时,在分发与合并操作的瓶颈带宽达分别是 153GB/s 158GB/s 。跨节点通信运用 RDMA ,随 EP 数量增加,分发和合并的瓶颈带宽稳定在 43 - 46GB/s

3 针对延迟敏感型推理解码场景 DeepEP 包括一组具有纯 RDMA 的低延迟内核,以最大限度地减少延迟。在处理 8 个专家的场景时,分发操作的延迟为163 us ,合并操作延迟 318 us 。伴随专家数目增加,延迟相应上升。

DeepSeek 推出的 EP 通信库通过系统性技术革新,突破了对高端 GPU 硬件的依赖路径,优化了 MoE 模型的分布式训练与推理效能。

4、DeepGEMM 革新矩阵运算

AI 大模型需要处理海量矩阵乘法运算,传统方法在处理速度保证精度上存在瓶颈。 DeepGEMM 是一个专为 FP8 通用矩阵设计的库,具备 DeepSeek-V3 的精细化缩放能力,用以驱动 V3/R1 模型的训练和推理。

1 DeepGEMM 相较于与传统的矩阵加速库不仅安装简单,核心内核函数仅仅 300 行,大大降低用户的使用门槛。该数据库基于 CUDA 编写,用户通过轻量化的即时编译( JIT )板块,在运行时动态编译所有内核。

2 DeepSeek 在使用 NVCC 12.8 H800 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状。从测试结果所得, DeepGEMM 计算性能可达到 1358 TFLOPS ,内存宽带最高可达 2668 GB/s 。加速比方面, GEMM 与基于 CUTLASS 3.6 的优化相比,最高可达 2.7 倍。

3 )此外,分组 GEMM MoE 模型)中连续性布局下可提速多达 1.2 倍。

AI 硬件被认为有 " 护城河 " 的今天, DeepSeek 精心设计的 DeepGEMM, 充分彰显出软件层面优化所蕴含的潜能。

4、DualPipe、EPLB 协同实现 AI 效率飞跃

开源周第四天, DeepSeek 推出了 Optimized Parallelism Strategies 。这是一个专注于优化并行计算策略的开源框架,其核心技术涵盖 DualPipe (双向管道并行算法和 EPLB







请到「今天看啥」查看全文