专栏名称: 3060

传播国家2030年碳达峰/2060年碳中和的政策、知识、技术与优良做法

目录

相关文章推荐

51好读 › 专栏 › 3060

斥巨资搞的智算中心，亏惨了！

3060 · 公众号 · · 2024-10-19 11:30

正文

“ 3060 ” 粉丝 7.3 万+，承接 各种 商业广告，价格从优

感谢您的认可和支持 ！

3060

老冯升职了！

被集团委派，成为集团智算中心租赁项目的负责人。

这个智算中心，可是集团的最新增长极，也是公司跨界转型的桥头堡，被集团寄予厚望。

新官上任，老冯最着急的就是让改造的智算中心赶紧投产，把租赁业务尽快开动起来。

现在这波大模型风口可不能错过，时间就是金钱，算力就是Money！

终于，智算中心改造完成，那天，老冯带客户参观，踌躇满志…

结果，业绩惨淡，根本租不出去，好不容易租出去的，到期也没有续租。

一个季度下来，老板看到惨淡的报表，恨不得揪住老冯破口大骂↓

为什么会闹成这样？

原来，老冯和大多数人一样，只看重了纸面算力，关注核心组件GPU，却忽略了很多细节。

正是这些细节坑，让老冯栽了大跟头。

那么，老冯都踩了哪些坑呢？究竟有哪些细节被老冯忽略了？

3060

01

规划阶段的坑

最开始，老冯所有精力都放在抢卡上，动用了各种资源，结果发现，搞到GPU也没那么难。

这一块有了着落，老冯就对其他方面没怎么上心了。

网络？随便搞搞就行了。

因为传统数据中心组网，老冯以前也搞过，觉得没啥大不了的，什么400G、800G，稀松平常。

他不知道，现在这种智算中心，网络规划不好，简直就是天坑。

比如两种技术路线，RoCE和IB，老冯想当然地觉得IB成熟靠谱，所以RoCE的方案商来交流，他都懒得搭理。

殊不知，这半年RoCE的声势已经盖过了IB，无论是性价比、开放性、端口速率、可维护性，开始占据明显上风。

就在老冯九牛拉不回，笃定要选IB的时候，集团下调了预算，因为IB比RoCE方案贵了一倍，要求老冯必须改方案。

没办法，老冯顺坡下驴。

工期紧，就随便选了一家厂商的网络方案，推进上线。

这一步，弃IB选RoCE，没错！老冯错在没做功课，RoCE好不代表所有的RoCE都好。

3060

02

部署上线阶段的坑

看着各家参数都差不多，其实，RoCE和IB可不一样，IB只是明坑多，而RoCE则是暗坑多。

设备一到货，开始部署上线，RoCE那些暗坑立马来了。

IB基本上即插即用，但RoCE如果选不好，部署上线和优化性能就太麻烦了，严重影响工期。

结果，别家都搞完租了半年了，老冯这里才姗姗来迟。

3060

03

开局运营阶段的坑

终于，熬到智算中心开张，也好不容易“忽悠”来了客户。

老冯以为自家卡算力满满，结果租户体验极差：不是频繁出错，就是训练卡顿。

租户们都是明白人，搞大模型训练就要争分夺秒，提供推理服务也需要高实时性，否则就没有客户体验。

像老冯这种智算中心，太拉了，于是大家纷纷退租…

至此，这个被集团寄予厚望智算中心项目，算是彻底哑火。

老冯也黯然离职，整个智算团队解散。

……

如果给老冯重来一次的机会，他一定不会再这么托大。

对智算中心来说，算力卡很标准，大家都大差不差，最大的变数其实是网络。

好网络和差网络，最终呈现的结果，天差地别。

那么，在智算中心建设中，如何避开网络的那些明坑和暗坑？

首先， RoCE是未来，不选IB是对的，可以一次性避开明坑（性价比、开放性、可维护性…）。

但是，RoCE产品的选型，是很有门道的，要避免重蹈老冯覆辙。

我们先来看一个典型的智算中心组网拓扑↓

重点看左边智算业务区的拓扑，其中参数网是个大坑，多轨连线复杂，配置量巨大。

以现在非常主流的万卡场景为例，服务器约1250台（8卡服务器），网络设备约140台，网络配置项总量约41万条，服务器配置项总量3万+条。

而且，还需要跨部门协调，单就一次配置开局，没几个周搞不定，更不用说还要优化、变更。

所以在这一环节，必须要选择支持算网协同智能化组网的。

比如业界就有某大厂推出了智算中心端到端的网络自动化部署方案，通过控制器实现算网联动，参数网/存储网一键部署，万卡规模智算中心天级开局。

组网过程中，该方案可从多视角展示交换机、算力卡、网卡互联拓扑，快速定位网络连接错误。

不要小看这个功能，超级实用。

比如，万卡集群的线缆有几万条，没人能一次把连线搞定：交换机线接错了，服务器网卡线接错了，网段划分错了，服务器内部GPU网卡拓扑异常…

但如果有了这种算网一体可视化拓扑，分分钟就能找到接线错误点（交换机之间、交换机与服务器间、服务器内GPU与网卡间）。

一键查错，快速修正，节省人力成本90%以上↓

在这样的平台下，“ 端随网动 ”，端侧服务器的配置可以自动化部署：RoCE配置、路由下发、网卡Bond设置均可以自动完成。

如此，GPU服务器上线一气呵成不拧巴，大大缩短工期。

有了这套叫做“AD-DC”的神器，智算中心的部署和上线，再也不必担心工期，按天来计算，麻麻利利，绝不脱泥带水。 （注：端网协同功能需要对应智算交换机支持）

接下来，智算中心开局，进入正式运营期，怎么保证租户的体验呢？

前面说过，拼算力卡的话，大家都差不多，你有的我也有，你没有的我也没有。

其实，网络层面，单看硬件、端口规格、芯片能力，大家也差不多。

可为啥实际跑起 智算任务 就天差地别了呢？

有人频繁报错，训练一天中断好几次；有人慢如蜗牛，训练进度看不到头；而有人却能稳得一匹，训练推理嗖嗖快。

这里面的关键差异，是智算网络全局操控和调度的能力。

首先，对于400G、800G速率的链路，看起来带宽足够，但训练任务在做All-Reduce等操作时，数据量极大。

传统逐流负载均衡的模式，很容易把流量调度到一条链路上，导致拥塞。

如果按照设备端口粒度逐流，虽然能避免“多打一”，却需要针对每个下行口指定一个同速率上行口（LBN）。

一一绑定工作量惊人，手工配置难度很大。

此时，我们再次拿出 AD-DC神器 ，通过控制器自动识别连接服务器的交换机下行端口，批量整网部署LBN，大幅简化工作量。

而且，AD-DC还提供分析器，监控并分析负载均衡的调度效果。

AD-DC在控制器侧可以启用路径导航算法，通过仿真得到最佳端侧参数，并下发配置到服务器。 （注：路径导航功能需要对应智算交换机支持）

同时，控制器还可以与UCCL（集合通信库）配合，站在全局视角，为智算任务选择最优链路。

这几波神操作，既可以有效避免智算网络的拥塞，又省掉了逐包负载均衡方案的保序网卡，大幅降低整网的造价和复杂度。

当然智算业务对网络时延也很敏感，此时还可以启用AI ECN动态调优，实时监控入栈流量模型，智能调整拥塞控制窗口，达到最优传输效率。

3060

这就完了吗？不！

这套AD-DC神器，还提供集群健康巡检、训前一键压测、训中作业监控和故障诊断等一系列智算运营运维能力↓

01

一键巡检

跨域全面巡检，万卡集群，常规巡检30分钟内完成，深度巡检小时级完成，提效80%。

02

一键压测

万卡集群环境下，10K网卡、30K设备接口，一键压测小时级完成，提升效率80%。

03

一键诊断

请到「今天看啥」查看全文

推荐文章

蓝橡树 · 为什么我们的孩子要在雾霾下长大？｜摄影师深入雾霾源头, 拍到的场景让人绝望

8 年前

财经早餐 · 做了这三件事，这家银行说：你的消费我包了！

8 年前

陆琪 · 给你自由，也请还我尊重

8 年前

央视财经 · 【提醒】女子借给同学17万没要借条，对方赖账！幸好留了这一手

7 年前

时尚COSMO · 杨幂刘雯带头犯规！ Metgala女星穿这么美对得起“玲姐”么

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!