专栏名称: 水木纪要
最有效、最及时分享公私募、公司、行业等投研纪要和市场热点分析。掌握市场信息差,掌握财富代码。
目录
相关文章推荐
51好读  ›  专栏  ›  水木纪要

GB200组网模式下光模块用量分析!

水木纪要  · 公众号  ·  · 2024-03-22 23:41

正文

更多一手调研纪要和研报数据,点击上面图片小程序

GPU 数量与光模块需求关系

72 GPU 以内 : 不需要光模块。

72-576 GPU: GPU 与光模块的用量比为 1 2 800G 。考虑到 80% 的数据在 NVL72 机架内通过铜缆完成传输, 仅有 20% 的数据需要跨机架传输。以 NVLINK 1.8TB 计算,单向为 900GB ,乘以 8 得到 7200Gb 20% 的数据通过光互联,即 1440Gb ,因此 2 800Gb 的光模块足够使用。

系统依赖性

系统高度依赖于英伟达的软件优化,以保持尽可能多的计算在 NVL72 内部完成。如果算力不足,可能需要更多的 GPU 并行互联,这将需要使用光模块。

超过 576 GPU 的情况

在超过 576 GPU 的情况下,第三层上将使用 IB InfiniBand )。根据过去的网络配置, GPU 800Gb 光模块的比 例约为 1 2.5 。结合第二层的 1 2 ,整体 GB200 的比例为 1 4.5 800G

小规模与大规模集群

小规模集群,如 72 GPU 以下,不需要光模块。

大规模集群,如 AWS 预期采购的 2 万张 GB200 集群,预计光模块的需求比例为 1 4.5

GB200 网络层级分析

GB200 网络的第二层与第三层相比第一层存在显著收敛,这与过去训练网络不应有收敛的传统理解相冲突。

NVDA 通过 NVL72 的形式,将 72 张卡构建为一个 服务器 ,每张卡具有 1.8TB 的互联能力。服务器内的交互速率显 著快于外部网络,因此第一层相当于原服务器内部的互联,速度更快。

技术进步与铜缆应用

本质上, NVDA 通过液冷和交换机芯片性能提升,将更多卡集中在一起,解决了散热问题。原本需要两层网络的 结构现在一层就能完成,使得 72 张卡的机架紧密结合,形成一个大型 服务器

铜缆与光模块的长期趋势

目前使用的是 200G 的铜缆,未来将升级至 400G 。随着算力提升,铜缆速率越高,互联距离越短。 200G 的电缆支 7m 400G 2.5m 800G 1m 。长期来看,光进铜退是大趋势,即使机架内的互联最终也将采用光模块。但在当前节点,铜缆可以替代光模块,预计直到 NVLINK 速率提升至 7.2TB 前,铜缆都将是可行的替代方案,这一时期预计将持续 3-4 年。

铜缆价值量测算

一个 NVL72 机柜需要 5000 个铜缆, 200G 速率的单价为 45 美金,总计 22 万美金。

铜缆中间的线, 1 米价格为 10 美金。

铜缆两头的连接器(接头),一个接头价格为 15 美金。

Cage 的价值量相对较低,约为连接器的 1/5

GB200 铜缆供应商

主要供应商为美国的安费诺、 Molex 。鼎通为这些厂商代工 cage 插槽。

国内高速铜缆对标供应商包括立讯、富联,以及兆龙互联、金信诺和新亚电子。

GH200 市场销售情况

GH200 过去销售不佳,仅占 5% ,主要客户为 AWS

新一代 NVDA 在算力提升幅度上有所增加,预计销售情况将有所改善。 AWS 已下单 2 万张 GB200 ,谷歌、微软也 将下单。若定价合理, GB200 的渗透率可能达到 20-40%

【AI光模块需求测算】

表格可以看出,B200 NVL72配置模型下,当集群的GPU数量超过576时,平均一个GPU需要配置7.5支800G的光模块,4支1.6T的光模块。单从GPU与光模块的配比看,新架构的光模块需求显著增加了3倍。

为基于相同的算力水平公平对比,新旧两种架构的GPU算力都归一化到H100,按照官网的数据B200=3*H100。那么Blackwell架构下的DGX B200 NVL72 SuperPod配置下,只要集群GPU数量超过2K (等价为H100的6K),光模块的数量明显比上一代要多,大概多出50%。

购买B200新架构的目的是希望有更强大的性能,以支撑越来越庞大的算法模型。所以,新的架构必将驱动高速光模块快速增长。

解读一:

GTC启示-关注光通信/交换机/液冷

英伟达GTC2024大会启示:关注光模块/交换机/液冷新变化

北京时间3月19日,英伟达GTC2024拉开帷幕,黄仁勋发表“见证AI的变革时刻”演讲,发布数款计算/网络新品及架构。我们看到:1)光模块:GB200集群中单GPU对外互联带宽进一步提升,有望带动1.6T光模块需求的加速释放;2)交换机:英伟达IB与以太网并重,全球首次实现端到端800G吞吐,我们看好以太网交换机在未来推理时代的应用潜力;3)液冷:GB200机架将搭载液冷系统,节省20KW功耗,芯片端背书+服务器端扩产+运营商端愿景有望共同促进液冷技术落地,利好相关设备商及IDC。建议关注:中际旭创、英维克、紫光股份、润泽科技。







请到「今天看啥」查看全文