专栏名称: zartbot
随便记录点有趣的东西
目录
相关文章推荐
知产力  ·  论马库什权利要求在专利无效程序中的修改 ·  9 小时前  
知产力  ·  论马库什权利要求在专利无效程序中的修改 ·  9 小时前  
51好读  ›  专栏  ›  zartbot

RDMA这十年的反思4: 从DeepSeek的3FS和DeepEP谈起

zartbot  · 公众号  ·  · 2025-03-07 08:23

正文

本文仅代表个人观点, 与作者任职的机构无关.

上周DeepSeek发布了一系列开源项目, 和RDMA相关的有DeepEP和3FS. 关于DeepEP的详细分析可以参考:

《分析一下EP并行和DeepSeek开源的DeepEP代码》

对于3FS网络通信相关的分析, 可以参考蚂蚁存储团队同学进行的分析:

《DeepSeek 3FS解读与源码分析(2):网络通信模块分析》

3FS发布几个小时内,  一行代码都没有修改, 我们就在阿里云上通过eRDMA搭建完成,并开始进行一系列压测

《基于eRDMA实测DeepSeek开源的3FS》

1. RDMA RC Verbs兼容的重要性

而今天看到一个3FS Github上的 issue [1] , 抱歉EFA不支持RDMA RC Verbs, 安装失败.

这就是渣B一直在强调的, 维持RDMA RC Verbs的生态兼容的重要性. 以前只有NCCL的时候, AWS在EFA上弄个插件还行, 而现在随着DeepEP/3FS, 还有Redis, Spark以及很多分布式数据库, 这些生态都在支持RDMA的时候, 怎么办呢? 很多东西并不是美国人做的就好, EFA SRD和UEC Libfabric估计要支持这些生态, 需要很大的人力投入和逐个版本的适配.

同理, 您如果想在Azure或者Google上试一下3FS, 要么去买支持IB的HPC实例, 要么就得去买GPU实例. 即便是使用IB技术构建带有SSD本地盘的机型, 成本也非常高. 至于Google的Falcon至今还没有上线, GPU实例开始买CX7,然后最近几天爆出在以色列建团队自己做网卡...

阿里云eRDMA成为全球唯一一个在所有地域所有可用区上通用计算实例(从第八代开始)完全免费支持RDMA能力的云服务提供商, 并保持RDMA RC Verbs兼容, 线下Nvidia/Mellanox的应用程序可以轻松迁移到云上. 再划个重点,eRDMA完全免费节省的RDMA网络成本大家可以自己核算一下.

即便是Nvidia的RDMA, 在以太网上开启AdaptiveRouting后, SEND/RECV这些还是无法在多个路径上转发的, 然后又是必须基于Lossless无损的以太网...

《谈谈英伟达的Spectrum-X以太网RDMA方案》

eRDMA可以在5%的丢包率下依旧维持90%的Goodput, 而Lossless以太网在千分之一的丢包率会怎么样? 更不要说和TCP混跑以及支持各种虚拟化的能力和热迁移能力了, 丢个图给内行的看看先进性.

几个指标:

  1. 集合通信能够保证95%以上的Fabric利用率
  2. 丢包率5%的时候仍然能够保证90%的Goodput
  3. 无需任何交换机的高级特性, 网卡实现多路径和拥塞控制
  4. 超大规模(128K QPs)并支持所有QP开启多路径转发能力.
  5. 兼容RDMA RC Verbs, 线下RDMA应用无需修改代码即可直接运行.
  6. Incast 128打1这样的场景, 每个QP之间的带宽差额最大100Kbps.
  7. CIPU 2.0支持400Gbps,未来还会更高:)

想起钱老那句话:“中国人怎么不行啊?外国人能搞的,难道中国人不能搞?” 不光能搞, 还比他们做的好. 我一直讲在DPU这个领域, 我们超越Nvidia是本分, 也希望其它领域大家都能更佳自信一点.







请到「今天看啥」查看全文