专栏名称: 硅星GenAI
比一部分人更先进入GenAI。
目录
相关文章推荐
联商网  ·  欢迎关注联商家族 ·  6 小时前  
中国交通信息化  ·  3月27日,青岛!第二十七届高速公路信息化大 ... ·  昨天  
爱可可-爱生活  ·  【[159星]Phantasm:为AI工作流 ... ·  2 天前  
51好读  ›  专栏  ›  硅星GenAI

DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈

硅星GenAI  · 公众号  · AI 科技自媒体  · 2025-02-25 12:27

主要观点总结

DeepSeek开源项目发布day2的成果——DeepEP,旨在解决MoE模型训练和推理中的通信效率问题。主要特点包括高效优化的通信库,支持节点内与节点间的通信,原生支持FP8调度等。它有助于提升MoE模型的训练和推理速度,对大规模AI项目具有重要意义。

关键观点总结

关键观点1: DeepEP的发布背景及目标

DeepEP是面向MoE模型训练与推理的开源EP通信库,旨在优化通信效率,解决MoE模型在训练和推理过程中的瓶颈。

关键观点2: DeepEP的主要特点

包括高效优化的全对全通信、通过NVLink和RDMA实现的高吞吐量内核、低延迟推理解码内核、原生FP8调度支持等。

关键观点3: DeepEP在MoE模型中的应用价值

DeepEP通过优化通信效率,提升了MoE模型的训练和推理速度,对于大规模AI项目具有重要意义。它的实施可能影响到未来硬件设计,如NVIDIA SHARP协处理器或统一IB和NVLink网络的发展。

关键观点4: DeepEP的积极反响

DeepEP发布后受到了业界的广泛关注,从评论来看,受到了广泛的积极评价。用户称赞其高效通信和支持低精度操作(如FP8)。赛科传媒的CEO梁赛表示,DeepEP的发布有利于大模型自身的进化演变和催生更多的应用。


正文

作者 周一笑
邮箱 [email protected]

DeepSeek开源周day2正式发布:DeepEP。
昨天的FlashMLA着眼于解决计算性能瓶颈,而今天发布的DeepEP则将目光投向了MoE模型训练与推理中的另一个关键环节——通信。DeepEP是一个面向MoE模型训练与推理的开源EP通信库,专门针对Hopper GPU(未来可能支持更多架构或设备)优化通信效率。
DeepSeek官方总结的DeepEP主要特点包括:
  • 高效优化的全对全通信

  • 通过 NVLink 和 RDMA 实现节点内与节点间支持

  • 用于训练和推理预填充的高吞吐量内核

  • 低延迟推理解码内核

  • 原生 FP8 调度支持

  • 计算与通信重叠的灵活 GPU 资源控制

在MoE模型中,由于专家数量众多且分布在不同设备上,专家之间的通信效率直接影响到整个模型的训练和推理速度。因此,一个高效的通信库对于MoE模型至关重要。
EP通信库,通常指的是用于高效数据传输和通信的协议或库,特别是在分布式计算环境中。在EP(Expert Parallel)模式是一种并行计算策略,能够有效地处理巨大的计算负载。
在使用MoE(Mixture of Experts)模型时,EP通信库可以帮助在不同设备之间实现专家并行,使每个设备只需处理其所负责的专家,从而减轻了单个设备的负担。
从 GitHub 页面提供的描述来看,DeepEP就像是为前面提到的专家团队提供了一种超快的“信使服务”,让这些专家之间的通信尽可能快速。
它优化了速度和效率,支持低精度操作如 FP8,这是一种计算更快但精度稍低的数字表示方式,类似于用更简单的工具完成任务。它还针对特定的硬件连接(如 NVLink 和 RDMA)进行了优化,这些是 GPU 之间的高速通信方式,确保在大规模 AI 项目中通信效率最高。
想象你有一个很大的团队,每个成员(我们称之为“专家”)负责不同的任务,比如一个擅长写文章,另一个擅长算数学。这些专家分布在不同的电脑上,使用强大的处理器叫 GPU。DeepEP 就像一个超级快的信息传递系统,让这些专家能快速分享数据,确保团队合作顺利。
具体来看,DeepEP包括以下关键功能:
正常内核: 用于训练和推理预填充,支持对 Streaming Multiprocessor (SM) 数量的控制。SM 是 GPU 执行 CUDA 内核的部分,控制其数量可以优化性能。
低延迟内核: 针对延迟敏感的推理解码,使用纯 RDMA(远程直接内存访问)技术,并采用基于钩子的通信-计算重叠方法,不占用 SM 资源。这对于实时应用(如语言模型的逐 token 生成)尤为重要。
低精度支持: 支持 FP8 操作,FP8 是一种 8 位浮点格式,相比标准 FP32(32 位)计算更快,内存占用更少。这在大型模型中尤为关键,可以显著提高效率。
硬件优化: 针对非对称域带宽转发(如 NVLink 到 RDMA 域)进行了优化,符合 DeepSeek-V3 论文中提到的组限制门控算法。NVLink 和 RDMA 是 GPU 之间的高速互连方式,优化这些连接可以充分利用硬件性能。
性能方面,在实测中,DeepEP在H800上4096个token同时处理的场景下,达到了153GB/s的传输速度,接近硬件理论极限(160GB/s)。
具体来看,正常内核性能(NVLink 和 RDMA,H800,CX7 InfiniBand 400 Gb/s,DeepSeek-V3/R1 预训练:4096 tokens/batch,7168 hidden,top-4 groups,top-8 experts,FP8 dispatch,BF16 combine):
低延迟内核性能(纯 RDMA,H800,CX7 InfiniBand 400 Gb/s,DeepSeek-V3/R1 生产:128 tokens/batch,7168 hidden,top-8 experts,FP8 dispatch,BF16 combine):
DeepEP项目描述还提到,实施可能与 DeepSeek-V3 论文略有不同,表明DeepEP可能是一个独立开发但与DeepSeek-V3 密切相关的工具,专门处理通信优化。
总的来看,DeepEP 的价值主要体现在以下几个方面:
效率提升: 通过优化通信,减少训练和推理所需的时间和计算资源。例如,低延迟内核通过通信-计算重叠方法不占用 SM 资源,适合实时推理。






请到「今天看啥」查看全文