专栏名称: 程序员的那些事
最有影响力的程序员自媒体,关注程序员相关话题:IT技术、IT职场、在线课程、学习资源等。
目录
相关文章推荐
码农翻身  ·  漫画 | 为什么大家都愿意进入外企? ·  昨天  
程序员的那些事  ·  清华大学:DeepSeek + ... ·  3 天前  
程序员的那些事  ·  印度把 DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  程序员的那些事

GPU:DeepSeek 你慢点开源,我都要被你榨干了…

程序员的那些事  · 公众号  · 程序员  · 2025-02-25 16:39

正文

DeepSeek 开源周第二弹:DeepEP

2025 年 02 月 25 日 10:24,AI 圈“源神” DeepSeek 在推特上发布“开源周”的第二弹。

今天的主角是 DeepEP :首个开源的专家并行(EP)通信库,专为 MoE 模型的训练和推理而设计。

DeepEP 特点:

  • ✅ 高效且优化的全对全(all-to-all)通信
  • ✅ 支持 NVLink 和 RDMA 的节点内与节点间通信
  • ✅ 高吞吐量内核,适用于训练和推理预填充任务
  • ✅ 低延迟内核,专为推理解码优化
  • ✅ 原生支持 FP8 分发(dispatch)
  • ✅ 灵活的 GPU 资源控制,实现计算-通信重叠


DeepEP 是什么?

DeepEP 是一个专为混合专家系统(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐量和低延迟的全对全(all-to-all)GPU 内核,这些内核也被称为 MoE 分发(dispatch)和合并(combine)。该库还支持低精度操作,包括 FP8。

为了与 DeepSeek-V3 论文中提出的分组限制门控算法(group-limited gating algorithm)保持一致,DeepEP 提供了一系列针对非对称域带宽转发优化的内核,例如将数据从 NVLink 域转发到 RDMA 域。这些内核具有高吞吐量,使其适用于训练和推理预填充任务。此外,它们还支持流式多处理器(Streaming Multiprocessors, SM)数量控制。

对于延迟敏感的推理解码任务,DeepEP 包含了一组纯 RDMA 的低延迟内核,以最大限度地减少延迟。该库还引入了一种基于钩子(hook-based)的通信-计算重叠方法,该方法不占用任何 SM 资源。

注意:该库的实现可能与 DeepSeek-V3 论文中的描述存在一些细微差异。


DeepEP 性能如何?

支持 NVLink 和 RDMA 转发的常规内核

DeepSeek 在 H800(~160 GB/s NVLink 最大带宽)上测试了常规内核,每台设备均连接到 CX7 InfiniBand 400 Gb/s RDMA 网卡(~50 GB/s 最大带宽)。测试遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,隐藏层维度 7168,top-4 分组,top-8 专家,FP8 分发和 BF16 合并)。

纯 RDMA 的低延迟内核

DeepSeek 在 H800 上测试了低延迟内核,每台设备均连接到 CX7 InfiniBand 400 Gb/s RDMA 网卡(~50 GB/s 最大带宽)。测试遵循典型的 DeepSeek-V3/R1 生产环境设置(每批次 128 个 token,隐藏层维度 7168,top-8 专家,FP8 分发和 BF16 合并)。


社区反馈+网友评论

截至 MaxAIBox 发稿为止,DeepEP 在 GitHub 已收获 2200+ Star。

24 日开源的 FlashMLA 已经有 8500+ Star 了。真是火爆了🔥。

难怪今天网友戏称“最近每天都有种度日如年的感觉。”

想尝试 DeepEP 的盆友,前往 GitHub:

https://github.com/deepseek-ai/DeepEP


DeepSeek 开源周系列:

第一弹:DeepSeek 推出 FlashMLA,刷新 AI 推理极限


- EOF -

推荐阅读 点击标题可跳转

1、 成人玩偶 + DeepSeek等大模型杀疯啦!中国制造的王炸组合,彻底征服欧美宅男







请到「今天看啥」查看全文