专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
机器之心  ·  超越DeepSeek-ProverV1.5! ... ·  15 小时前  
爱可可-爱生活  ·  突破性的“一步扩散”生成模型 查看图片 ... ·  22 小时前  
机器之心  ·  联手华为诺亚,南大LAMDA组获EDA顶会D ... ·  昨天  
爱可可-爱生活  ·  【[924星]LegendApp/legen ... ·  2 天前  
51好读  ›  专栏  ›  AI前线

DeepSeek开源周第二弹:第一个用于MoE模型训推的EP通信库,暂只支持英伟达卡

AI前线  · 公众号  · AI  · 2025-02-25 12:16

主要观点总结

DeepEP是一个专为混合专家模型(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库,具备高效通信、优化带宽和低延迟推理等特点。

关键观点总结

关键观点1: 高效通信

DeepEP提供了高吞吐量、低延迟的GPU通信功能,支持MoE中的分发和组合操作,以及低精度计算(如FP8)。

关键观点2: 优化带宽

针对DeepSeek-V3论文中的算法,DeepEP优化了数据在不同硬件域之间的传输,如NVLink到RDMA,并适合训练和推理任务。此外,它还能控制GPU资源(SM)的使用。

关键观点3: 低延迟推理

DeepEP对推理任务进行了优化,使用纯RDMA通信减少延迟,并支持通信和计算重叠的技术,不占用额外GPU资源。

关键观点4: 与DeepSeek-V3论文算法的结合

DeepEP与DeepSeek-V3论文中提出的组限门控算法保持一致,提供针对非对称域带宽转发优化的内核,并在特定硬件环境下进行了测试。

关键观点5: 软硬件环境要求

DeepEP目前需要的软硬件环境包括Hopper GPUs、NVLink用于节点内通信、RDMA网络、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本。


正文







请到「今天看啥」查看全文