本文仅代表个人观点, 与作者任职的机构无关.
上周DeepSeek发布了一系列开源项目, 和RDMA相关的有DeepEP和3FS. 关于DeepEP的详细分析可以参考:
《分析一下EP并行和DeepSeek开源的DeepEP代码》
对于3FS网络通信相关的分析, 可以参考蚂蚁存储团队同学进行的分析:
《DeepSeek 3FS解读与源码分析(2):网络通信模块分析》
3FS发布几个小时内, 一行代码都没有修改, 我们就在阿里云上通过eRDMA搭建完成,并开始进行一系列压测
《基于eRDMA实测DeepSeek开源的3FS》
1. RDMA RC Verbs兼容的重要性
而今天看到一个3FS Github上的
issue
[1]
,
抱歉EFA不支持RDMA RC Verbs, 安装失败.
这就是渣B一直在强调的,
维持RDMA RC Verbs的生态兼容的重要性.
以前只有NCCL的时候, AWS在EFA上弄个插件还行, 而现在随着DeepEP/3FS, 还有Redis, Spark以及很多分布式数据库, 这些生态都在支持RDMA的时候, 怎么办呢?
很多东西并不是美国人做的就好, EFA SRD和UEC Libfabric估计要支持这些生态, 需要很大的人力投入和逐个版本的适配.
同理, 您如果想在Azure或者Google上试一下3FS, 要么去买支持IB的HPC实例, 要么就得去买GPU实例. 即便是使用IB技术构建带有SSD本地盘的机型, 成本也非常高. 至于Google的Falcon至今还没有上线, GPU实例开始买CX7,然后最近几天爆出在以色列建团队自己做网卡...
阿里云eRDMA成为全球唯一一个在所有地域所有可用区上通用计算实例(从第八代开始)完全免费支持RDMA能力的云服务提供商, 并保持RDMA RC Verbs兼容, 线下Nvidia/Mellanox的应用程序可以轻松迁移到云上. 再划个重点,eRDMA完全免费节省的RDMA网络成本大家可以自己核算一下.
即便是Nvidia的RDMA, 在以太网上开启AdaptiveRouting后, SEND/RECV这些还是无法在多个路径上转发的, 然后又是必须基于Lossless无损的以太网...
《谈谈英伟达的Spectrum-X以太网RDMA方案》
eRDMA可以在5%的丢包率下依旧维持90%的Goodput, 而Lossless以太网在千分之一的丢包率会怎么样? 更不要说和TCP混跑以及支持各种虚拟化的能力和热迁移能力了, 丢个图给内行的看看先进性.
几个指标:
-
-
丢包率5%的时候仍然能够保证90%的Goodput
-
无需任何交换机的高级特性, 网卡实现多路径和拥塞控制
-
超大规模(128K QPs)并支持所有QP开启多路径转发能力.
-
兼容RDMA RC Verbs, 线下RDMA应用无需修改代码即可直接运行.
-
Incast 128打1这样的场景, 每个QP之间的带宽差额最大100Kbps.
-
CIPU 2.0支持400Gbps,未来还会更高:)
想起钱老那句话:“中国人怎么不行啊?外国人能搞的,难道中国人不能搞?” 不光能搞, 还比他们做的好. 我一直讲在DPU这个领域, 我们超越Nvidia是本分, 也希望其它领域大家都能更佳自信一点.