DeepSeek 开源周第二弹:DeepEP
2025 年 02 月 25 日 10:24,AI 圈“源神” DeepSeek 在推特上发布“开源周”的第二弹。
今天的主角是
DeepEP
:首个开源的专家并行(EP)通信库,专为 MoE 模型的训练和推理而设计。
DeepEP 特点:
-
✅ 高效且优化的全对全(all-to-all)通信
-
✅ 支持 NVLink 和 RDMA 的节点内与节点间通信
-
-
-
-
DeepEP 是什么?
DeepEP 是一个专为混合专家系统(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐量和低延迟的全对全(all-to-all)GPU 内核,这些内核也被称为 MoE 分发(dispatch)和合并(combine)。该库还支持低精度操作,包括 FP8。
为了与 DeepSeek-V3 论文中提出的分组限制门控算法(group-limited gating algorithm)保持一致,DeepEP 提供了一系列针对非对称域带宽转发优化的内核,例如将数据从 NVLink 域转发到 RDMA 域。这些内核具有高吞吐量,使其适用于训练和推理预填充任务。此外,它们还支持流式多处理器(Streaming Multiprocessors, SM)数量控制。
对于延迟敏感的推理解码任务,DeepEP 包含了一组纯 RDMA 的低延迟内核,以最大限度地减少延迟。该库还引入了一种基于钩子(hook-based)的通信-计算重叠方法,该方法不占用任何 SM 资源。
注意:该库的实现可能与 DeepSeek-V3 论文中的描述存在一些细微差异。
DeepEP 性能如何?
支持 NVLink 和 RDMA 转发的常规内核
DeepSeek 在 H800(~160 GB/s NVLink 最大带宽)上测试了常规内核,每台设备均连接到 CX7 InfiniBand 400 Gb/s RDMA 网卡(~50 GB/s 最大带宽)。测试遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,隐藏层维度 7168,top-4 分组,top-8 专家,FP8 分发和 BF16 合并)。
纯 RDMA 的低延迟内核
DeepSeek 在 H800 上测试了低延迟内核,每台设备均连接到 CX7 InfiniBand 400 Gb/s RDMA 网卡(~50 GB/s 最大带宽)。测试遵循典型的 DeepSeek-V3/R1 生产环境设置(每批次 128 个 token,隐藏层维度 7168,top-8 专家,FP8 分发和 BF16 合并)。
社区反馈+网友评论
截至 MaxAIBox 发稿为止,DeepEP 在 GitHub 已收获 2200+ Star。
24 日开源的 FlashMLA 已经有 8500+ Star 了。真是火爆了🔥。
难怪今天网友戏称“最近每天都有种度日如年的感觉。”
想尝试 DeepEP 的盆友,前往 GitHub:
https://github.com/deepseek-ai/DeepEP
DeepSeek 开源周系列:
- EOF -