主要观点总结
本文主要介绍了英伟达推出的GB200液冷模组和即将发布的GB300芯片的详细信息及液冷路线预估。随着芯片性能的提升,功耗也大幅增加,采用液冷技术成为必要选择。文章还介绍了液冷技术的组成部分和成本,以及各大厂商在液冷市场的参与情况。
关键观点总结
关键观点1: GB200液冷模组价格预估
随着GB200芯片推出,采用液冷技术成为必要,模组总组成价值约10万美元和7万美元(不含基础建设)。四大零组件占组成价值的90%以上。
关键观点2: GB300芯片细节
GB300超级芯片预计于2025年三月在GTC大会发布,采用台积电的4NP制造工艺,拥有更强的FP4性能和更高的HBM内存规格。此外,B300 GPU采用插槽设计,Grace CPU将采用LPCAMM内存条。
关键观点3: 液冷路线预估
随着芯片性能提升,功耗增加,全水冷散热方案将成为主流。液冷市场商机庞大,散热零件单价与毛利率较高。预计GB300服务器的顶配价格将远超目前的GB200服务器。
正文
随着GB200芯片在2024年的推出释出,NVIDIA把其GPU的TDP(热功耗设计)推升至新的高度,单颗B200来到了1,200W(液冷状况下);由两颗B200加上一颗Grace CPU组成的GB200芯片组总TDP则高达2,700W。
在NVL72/36的设计架构下,每层Compute Tray配备两组GB200,这意味着在1-2U的伺服器高度内,需承载与过去H100 HGX系统相近的总TDP。为了满足这样的需求,采用散热效率更高的液冷技术成为必要选择,不仅能有效负担散热需求,同时也能改善整体数据中心的能源使用效能。
而不论是使用L2A(Liquid-to-air)或L2L(Liquid-to-liquid)的散热解方,都会使用到Cold plate(液冷板)、CDU(Coolant distribution unit,冷却液分配单元)、Manifold(冷却水歧管)和UQD(Universal Quick Disconnect,冷却液快接头)四大零组件,由这些零组件将废热从芯片表面带离后,L2A会再透过风扇背门和热交换器、L2L则透过室外冰水机使冷却液降温并重新再回到系统进行循环。
来源:NVIDIA、Nidec、CoolIT、CPC
根据产业调研结果,在GB200 NVL72/36中,每层Compute Tray在CPU和GPU上方都会使用到一片液冷板,并在机壳后方放置6~10组的散热风扇;Switch Tray部分则在2颗NVLink Switch ASIC各使用一片液冷板,并放置6组的散热风扇;整机柜部分,会使用到一对冷却水歧管、一组搭配柜式液冷背门的CDU;另外在包含Manifold、液冷板部分都会使用到UQD。其BoM表拆解如下:
来源:NVIDIA、Nomura、Morgan Stanley、零氪自行预估制作
过以上拆解和计算,GB200 NVL72/36散热模组总组成价值分别落在约10万美元和7万美元(其中不包含针对液冷系统改变的基础建设和管线重设),其中四大零组件的组成价值即占90%以上,显示有出货此四大零组件的业者将能最大程度受惠于液冷解方大量采用之趋势。
SemiAnalysis称,B300将在2025年三月在GTC大会发布,25年Q3出货。Nvidia 的B300系列处理器采用了经过大幅调整的设计,仍将采用台积电的4NP制造工艺(针对Nvidia进行优化的4nm级节点,性能增强)。
在芯片侧方面,GB300超级芯片将基于更新的B300 GPU,拥有更强的FP4性能。该GPU功耗将从B200的1000W进一步提升至1400W,达到初代B100的两倍;同时HBM内存规格也将升级共计288GB的8堆栈12Hi HBM3E。
此外B300 GPU有望采用插槽设计以提升良率、简化售后维护;而在Grace CPU部分则将采用LPCAMM内存条代替现有的板载LPDDR5。
互联方面,英伟达将在GB300服务器上导入新一代ConnectX-8 SuperNIC和理论带宽翻倍的1.6Tbps光模块。
液冷方面,新一代GB300AI服务器将采用“Blackwell Ultra”架构,由于性能显著提升,导致功耗也大幅增加,将取消风扇风冷版本因此将采用全水冷散热方案,全面采用液冷系统并以「液对液」方式为主
,主要原因是风扇容易故障且维修成本较高,另外补充一下GB300的其他规格,CPU及GPU将改用插槽(Socket)设计,
快接头用量有望倍增
,同时NVL72机柜将加入BBU(电池备援电力模组)与超级电容(Capacitor Tray)。液冷市场参与大厂方面,除了NVIDIA为主要的参与者,从云端业者自行研发高阶AI ASIC来看,主要以Google为最积极采用液冷方案的业者,同时也因为液冷散热商机庞大、散热零件单价(ASP)与毛利率皆较风冷来的高,利好液冷赛道。
本次英伟达GB300全液冷方案也推高了服务器成本,预计GB300服务器的顶配价格将远超目前约300万美元(当前约2196.6万元人民币)的GB200 NVL72服务器。
文章转自零氪1+1,作
者Eric747,部分素
材源自网络,版权归原作者所有。分享目的仅为行业信息传递与交流,不代表本公众号立场和证实其真实性与否。如有不适,请联系我们及时处理。欢迎参与投稿分享!微信jishn1235
“
第三届数据中心液冷大会”将于2025年3月27日在杭州召开
,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。
关键词:
液冷、全栈、最佳实践、芯片、服务器、基础设施
嘉宾规模:500+专业人士
会议形式:
展览展示+主旨演讲+技术分享+应用案例参观