专栏名称: 3060
传播国家2030年碳达峰/2060年碳中和的政策、知识、技术与优良做法
目录
相关文章推荐
51好读  ›  专栏  ›  3060

斥巨资搞的智算中心,亏惨了!

3060  · 公众号  ·  · 2024-10-19 11:30

正文

3060 粉丝 7.3 万+, 各种 商业广告 ,价格从优

感谢您的认可和支持

3060
老冯升职了!

被集团委派,成为集团智算中心租赁项目的负责人。

这个智算中心,可是集团的最新增长极,也是公司跨界转型的桥头堡,被集团寄予厚望。

新官上任,老冯最着急的就是让改造的智算中心赶紧投产,把租赁业务尽快开动起来。

现在这波大模型风口可不能错过,时间就是金钱,算力就是Money!

终于,智算中心改造完成,那天,老冯带客户参观,踌躇满志…

结果,业绩惨淡,根本租不出去,好不容易租出去的,到期也没有续租。

一个季度下来,老板看到惨淡的报表,恨不得揪住老冯破口大骂↓

为什么会闹成这样?

原来,老冯和大多数人一样,只看重了纸面算力,关注核心组件GPU,却忽略了很多细节。

正是这些细节坑,让老冯栽了大跟头。

那么,老冯都踩了哪些坑呢?究竟有哪些细节被老冯忽略了?

3060


01

规划阶段的坑

最开始,老冯所有精力都放在抢卡上,动用了各种资源,结果发现,搞到GPU也没那么难。

这一块有了着落,老冯就对其他方面没怎么上心了。
网络?随便搞搞就行了。
因为传统数据中心组网,老冯以前也搞过,觉得没啥大不了的,什么400G、800G,稀松平常。
他不知道,现在这种智算中心,网络规划不好,简直就是天坑。
比如两种技术路线,RoCE和IB,老冯想当然地觉得IB成熟靠谱,所以RoCE的方案商来交流,他都懒得搭理。
殊不知,这半年RoCE的声势已经盖过了IB,无论是性价比、开放性、端口速率、可维护性,开始占据明显上风。
就在老冯九牛拉不回,笃定要选IB的时候,集团下调了预算,因为IB比RoCE方案贵了一倍,要求老冯必须改方案。
没办法,老冯顺坡下驴。
工期紧,就随便选了一家厂商的网络方案,推进上线。
这一步,弃IB选RoCE,没错!老冯错在没做功课,RoCE好不代表所有的RoCE都好。
3060


02

部署上线阶段的坑

看着各家参数都差不多,其实,RoCE和IB可不一样,IB只是明坑多,而RoCE则是暗坑多。
设备一到货,开始部署上线,RoCE那些暗坑立马来了。
IB基本上即插即用,但RoCE如果选不好,部署上线和优化性能就太麻烦了,严重影响工期。
结果,别家都搞完租了半年了,老冯这里才姗姗来迟。
3060


03

开局运营阶段的坑

终于,熬到智算中心开张,也好不容易“忽悠”来了客户。
老冯以为自家卡算力满满,结果租户体验极差:不是频繁出错,就是训练卡顿。
租户们都是明白人,搞大模型训练就要争分夺秒,提供推理服务也需要高实时性,否则就没有客户体验。
像老冯这种智算中心,太拉了,于是大家纷纷退租…
至此,这个被集团寄予厚望智算中心项目,算是彻底哑火。
老冯也黯然离职,整个智算团队解散。
……
如果给老冯重来一次的机会,他一定不会再这么托大。
对智算中心来说,算力卡很标准,大家都大差不差,最大的变数其实是网络。
好网络和差网络,最终呈现的结果,天差地别。
那么,在智算中心建设中,如何避开网络的那些明坑和暗坑?
首先, RoCE是未来, 不选IB是对的,可以一次性避开明坑(性价比、开放性、可维护性…)。
但是,RoCE产品的选型,是很有门道的,要避免重蹈老冯覆辙。
我们先来看一个典型的智算中心组网拓扑↓
重点看左边智算业务区的拓扑,其中参数网是个大坑,多轨连线复杂,配置量巨大。
以现在非常主流的万卡场景为例,服务器约1250台(8卡服务器),网络设备约140台,网络配置项总量约41万条,服务器配置项总量3万+条。
而且,还需要跨部门协调,单就一次配置开局,没几个周搞不定,更不用说还要优化、变更。
所以在这一环节,必须要选择支持算网协同智能化组网的。
比如业界就有 某大厂 推出了智算中心端到端的网络自动化部署方案,通过控制器实现算网联动,参数网/存储网一键部署,万卡规模智算中心天级开局。
组网过程中,该方案可从多视角展示交换机、算力卡、网卡互联拓扑,快速定位网络连接错误。
不要小看这个功能,超级实用。
比如,万卡集群的线缆有几万条,没人能一次把连线搞定:交换机线接错了,服务器网卡线接错了,网段划分错了,服务器内部GPU网卡拓扑异常…
但如果有了这种算网一体可视化拓扑,分分钟就能找到接线错误点(交换机之间、交换机与服务器间、服务器内GPU与网卡间)。
一键查错,快速修正,节省人力成本90%以上↓
在这样的平台下,“ 端随网动 ”,端侧服务器的配置可以自动化部署:RoCE配置、路由下发、网卡Bond设置均可以自动完成。
如此,GPU服务器上线一气呵成不拧巴,大大缩短工期。
有了这套叫做“AD-DC”的神器,智算中心的部署和上线,再也不必担心工期,按天来计算,麻麻利利,绝不脱泥带水。 (注:端网协同功能需要对应智算交换机支持)
接下来,智算中心开局,进入正式运营期,怎么保证租户的体验呢?
前面说过,拼算力卡的话,大家都差不多,你有的我也有,你没有的我也没有。
其实,网络层面,单看硬件、端口规格、芯片能力,大家也差不多。
可为啥实际跑起 智算任务 就天差地别了呢?
有人频繁报错,训练一天中断好几次;有人慢如蜗牛,训练进度看不到头; 而有人却能稳得一匹,训练推理嗖嗖快。
这里面的关键差异,是智算网络全局操控和调度的能力。
首先,对于400G、800G速率的链路,看起来带宽足够,但训练任务在做All-Reduce等操作时,数据量极大。
传统逐流负载均衡的模式,很容易把流量调度到一条链路上,导致拥塞。
如果按照设备端口粒度逐流,虽然能避免“多打一”,却需要针对每个下行口指定一个同速率上行口(LBN)。
一一绑定工作量惊人,手工配置难度很大。
此时,我们再次拿出 AD-DC神器 ,通过控制器自动识别连接服务器的交换机下行端口,批量整网部署LBN,大幅简化工作量。
而且,AD-DC还提供分析器,监控并分析负载均衡的调度效果。
AD-DC在控制器侧可以启用路径导航算法,通过仿真得到最佳端侧参数,并下发配置到服务器。 (注:路径导航功能需要对应智算交换机支持)
同时,控制器还可以与UCCL(集合通信库)配合,站在全局视角,为智算任务选择最优链路。
这几波神操作,既可以有效避免智算网络的拥塞,又省掉了逐包负载均衡方案的保序网卡,大幅降低整网的造价和复杂度。
当然智算业务对网络时延也很敏感,此时还可以启用AI ECN动态调优,实时监控入栈流量模型,智能调整拥塞控制窗口,达到最优传输效率。
3060


这就完了吗?不!
这套AD-DC神器,还提供 集群健康巡检 训前一键压测 训中作业监控和故障诊断 等一系列智算运营运维能力↓

01

一键巡检


跨域全面巡检,万卡集群,常规巡检30分钟内完成,深度巡检小时级完成,提效80%。

02

一键压测


万卡集群环境下,10K网卡、30K设备接口,一键压测小时级完成,提升效率80%。

03

一键诊断







请到「今天看啥」查看全文