专栏名称: IDC圈
中国IDC圈是一家立足TMT产业,专注于数据中心、云计算、大数据及互联网等领域的深度挖掘,做有视角、有价值、有态度的新媒体平台。
目录
相关文章推荐
Clinic門诊新视野  ·  吉林首例丨吉林大学中日联谊医院心血管外科林柏 ... ·  12 小时前  
FM1007福建交通广播  ·  乌干达启动针对埃博拉病毒的疫苗试验 ·  2 天前  
丁香园肿瘤时间  ·  TACE vs. HAIC,肝癌介入治疗怎么选? ·  4 天前  
蒲公英Ouryao  ·  监督检查→6药企检查内容发布 ·  4 天前  
51好读  ›  专栏  ›  IDC圈

中国42个液冷智算中心布局及液冷核心产业分析|算力产业核心内刊No.5

IDC圈  · 公众号  ·  · 2024-11-08 19:23

正文

本文共4800字。

付费部分含8张图表,内容主要包括:

1.《42个中国液冷智算中心项目完整表单》(项目名称、地址、运营主体等)

2.中国42个中国液冷智算中心项目专业分析(含运营主体、液冷技术路线以及机柜功率分析)

3.《野村液冷大报告》精选内容分享(独家)

—————————————————————————————————————

本期主要分析2024年以来中国液冷智算中心建设布局情况,截止2024年11月8日, 据中国 IDC圈不完全统计,共收集液冷智算中心项目动态42个,其中2024年新增液冷智算中心项目动态35个,对比2023年以前液冷智算中心数量有显著增加



当前液冷数据中心建设数量不断增加的背后是AI服务器的风冷散热方式逐渐逼近其容量极限的真实反馈,这一点从近期 NVIDIA产品路线图调整 就可以看出一个清晰的趋势。据悉,当前百度已经开始研究单向浸没(Single-Phase Immersion)液冷应用方案。


以英伟达的芯片服务器为例,每机架功耗从A100 DGX / H100 DGX(每机架4个DGX系统,每系统8个GPU)的25-40kW,增加到GB200 NVL36/72的60-140kW。其中,NVL36(每机架66-80kW)需要液冷与风冷的混合方案(L2A),而NVL72(每机架132-160kW)则需要纯液冷方案(L2L), 也就是说到了 GB200 NVL72 液冷已经是必然选择


野村最新发布的液冷报告更是给出了非常乐观的预期:“液冷技术在NVIDIA AI服务器中的渗透率将从2024年的8%提升至 2025年的43%,并在2026年达到47%。


为什么液冷将成为必然选择?

随着芯片的热设计功耗(Thermal Design Power,TDP)随计算能力的提高而不断增加,空气冷却已逼近物理极限。通常,对于高度为1U/2U的服务器(1U约等于1.75英寸,约44.45毫米),空气冷却可以支持每个芯片功耗达到350W/500W。考虑到成本因素,当芯片的TDP低于500W时,通常不会采用液冷。而另一个更重要的经验法则是, 每个芯片 1000W的TDP是空气冷却的极限。 根据Vertiv/Omdia 的数据,每个服务器机架的功率密度呈现明显上升趋势。



考虑到有限的空间( 1-2U)和高TDP,GB200 将需要采用液冷。 GB200的TDP将达到2700W(1个CPU 300W + 2个B200各1200W=2700W),而H100 每芯片最高700W。虽然每台服务器的总TDP(GB200的2×2700W与H100 HGX/DGX的8×700W)可能相近,但GB200 服务器有限的空间(高度仅 1-2U,相比H100 HGX/DGX的6-8U)对散热能力提出了更高的挑战。


值得关注的是,由于液冷的高成本和一些尚未解决的问题(如漏液风险),当前AI服务器(如H100采用了 3D VC(Vapor Chamber)解决方案。3D VC可以处理高达700-800W的TDP,但需要更大的空间。比如,用于H100(单芯片TDP高达700W)的3D VC 通常高度超过4U,于是整个服务器(包括通用底板UBB和主板MB)的高度就达到了5U至8U之间。



此外,在液体-空气冷却中,机架底部(或旁挂柜中)的冷却液分配单元(CDU)通过冷回路泵送冷却液,围绕处理器循环以冷却每个节点,处理器产生的热量被吸收到进入热回路的液体中。然后,热液体进入后门热交换器进行散热,风扇将热量从机架中抽出。最后,冷却后的冷却液重新进入 CDU,循环往复。


据野村证券最新发布的《ANCHOR REPORT》显示,当前一些客户更倾向于使用液冷旁挂柜(独立机架,用于液体-空气冷却),而非机架内 CDU,因为它更易于部署,且无需更改现有数据中心基础设施(只需用一两个液冷旁挂柜替换一个服务器机架)。


液冷正带来高成本问题

从近期海外厂商情况来看,尽管对H100/H200 HGX来说液冷并不是必然选择,但 很多厂商依然选择配置了纯液冷方案,主要原因是出于节能角度的中长期成本层面考虑 。例如,特斯拉和X公司向Supermicro和戴尔下达了采用液液冷却的 H100/H200 订单。 虽然液冷的初始成本较高,但运营中的节能效果可在较短时间内收回前期投入。


液冷的初始成本高在了哪里呢?上文中提到的 3D VC 是目前主要的解决方案, 具备更好的散热能力,但 问题就是成 本更高 3D VC是热管和蒸汽室的组合,底部是一个顶部带孔的蒸汽室,可焊接开放式热管。由于蒸汽空间更大,实现了500-1000W的散热能力,优于热管和传统VC的<500W。然而,由于制造复杂,3D VC的价格至少是传统 VC 的两倍,也因此,当前 3D VC被认为只是主流AI服务器的过渡性产品。


当前液冷系统的成本结构分析显示,风冷系统每千瓦的成本约为6000元,包含水泵、冷塔、冷机、管路、阀门和精密空调等设备。而 冷板系统的成本已降低至每千瓦 7000至8000元之间 。相比之下,单相浸没液冷的成本为每千瓦10000元,双相浸没液冷则高达每千瓦13000元。







请到「今天看啥」查看全文