正文
就在刚刚,DeepSeek 第二天的开源项目 DeepEP 正式发布。
DeepSeek 官方在 X 平台发文称:
「很高兴向大家介绍 DeepEP——首个专为 MoE(专家混合)模型训练和推理打造的开源 EP 通信库。
✅ 高效优化的全对全(all-to-all)通信
✅ 支持节点内(intranode)和节点间(internode)通信,兼容 NVLink 和 RDMA
✅ 训练与推理预填充(prefilling)阶段的高吞吐率计算核
✅ 推理解码(decoding)阶段的低延迟计算核
✅ 原生支持 FP8 数据调度
✅ 灵活的 GPU 资源控制,实现计算与通信的重叠处理」
据介绍,DeepEP 是专为专家混合(MoE)和专家并行(EP) 设计的通信库,提供高吞吐、低延迟的全对全(all-to-all)GPU 计算核,也被称为 MoE dispatch 和 MoE combine。
此外,该库还支持包括 FP8 在内的低精度计算操作。
说人话就是,DeepEP 是 MoE 模型的「通信管家」,通过软硬件协同优化,让专家之间的数据传递又快又省资源,大幅提升训练和推理效率。
另外,DeepEP 为支持 DeepSeek-V3 论文中的组限门控(group-limited gating) 算法,开发了专门的计算模块,这些模块能够高效处理不同网络连接之间的数据传输,比如从 GPU 之间的 NVLink 连接传输到服务器之间的 RDMA 连接。
DeepEP 提供了两种主要类型的计算模块。
一种是高吞吐量模块,它们在训练和推理预填充阶段表现出色,并且可以灵活调整 GPU 处理器资源;另一种是专为推理解码阶段设计的低延迟模块,完全基于 RDMA 技术,能够最大限度减少响应时间。
此外,DeepEP 还引入了一种基于 Hook 的方法,使计算和通信能够同时进行而不占用额外的 GPU 资源。
DeepSeek 团队使用 H800 测试了两种不同类型的计算模块,配备了 NVLink 连接(最大带宽可达 160 GB/s)以及 CX7 InfiniBand 400 Gb/s RDMA 网卡(最大带宽约 50 GB/s)。效果如图表所示。
附上 GitHub 项目地址:
https://github.com/deepseek-ai/DeepEP