中国42个液冷智算中心布局及液冷核心产业分析｜算力产业核心内刊No.5

IDC圈 · 公众号 · · 2024-11-08 19:23

正文

本文共4800字。

付费部分含8张图表，内容主要包括：

1.《42个中国液冷智算中心项目完整表单》（项目名称、地址、运营主体等）

2.中国42个中国液冷智算中心项目专业分析（含运营主体、液冷技术路线以及机柜功率分析）

3.《野村液冷大报告》精选内容分享（独家）

—————————————————————————————————————

本期主要分析2024年以来中国液冷智算中心建设布局情况，截止2024年11月8日， 据中国 IDC圈不完全统计，共收集液冷智算中心项目动态42个，其中2024年新增液冷智算中心项目动态35个，对比2023年以前液冷智算中心数量有显著增加 。

当前液冷数据中心建设数量不断增加的背后是AI服务器的风冷散热方式逐渐逼近其容量极限的真实反馈，这一点从近期 NVIDIA产品路线图调整 就可以看出一个清晰的趋势。据悉，当前百度已经开始研究单向浸没(Single-Phase Immersion)液冷应用方案。

以英伟达的芯片服务器为例，每机架功耗从A100 DGX / H100 DGX（每机架4个DGX系统，每系统8个GPU）的25-40kW，增加到GB200 NVL36/72的60-140kW。其中，NVL36（每机架66-80kW）需要液冷与风冷的混合方案（L2A），而NVL72（每机架132-160kW）则需要纯液冷方案（L2L）， 也就是说到了 GB200 NVL72 液冷已经是必然选择 。

野村最新发布的液冷报告更是给出了非常乐观的预期：“液冷技术在NVIDIA AI服务器中的渗透率将从2024年的8%提升至 2025年的43%，并在2026年达到47%。 ”

为什么液冷将成为必然选择？

随着芯片的热设计功耗（Thermal Design Power，TDP）随计算能力的提高而不断增加，空气冷却已逼近物理极限。通常，对于高度为1U/2U的服务器（1U约等于1.75英寸，约44.45毫米），空气冷却可以支持每个芯片功耗达到350W/500W。考虑到成本因素，当芯片的TDP低于500W时，通常不会采用液冷。而另一个更重要的经验法则是， 每个芯片 1000W的TDP是空气冷却的极限。 根据Vertiv/Omdia 的数据，每个服务器机架的功率密度呈现明显上升趋势。

考虑到有限的空间（ 1-2U）和高TDP，GB200 将需要采用液冷。 GB200的TDP将达到2700W（1个CPU 300W + 2个B200各1200W=2700W），而H100 每芯片最高700W。虽然每台服务器的总TDP（GB200的2×2700W与H100 HGX/DGX的8×700W）可能相近，但GB200 服务器有限的空间（高度仅 1-2U，相比H100 HGX/DGX的6-8U）对散热能力提出了更高的挑战。

值得关注的是，由于液冷的高成本和一些尚未解决的问题（如漏液风险），当前AI服务器（如H100采用了 3D VC（Vapor Chamber）解决方案。3D VC可以处理高达700-800W的TDP，但需要更大的空间。比如，用于H100（单芯片TDP高达700W）的3D VC 通常高度超过4U，于是整个服务器（包括通用底板UBB和主板MB）的高度就达到了5U至8U之间。

此外，在液体-空气冷却中，机架底部（或旁挂柜中）的冷却液分配单元（CDU）通过冷回路泵送冷却液，围绕处理器循环以冷却每个节点，处理器产生的热量被吸收到进入热回路的液体中。然后，热液体进入后门热交换器进行散热，风扇将热量从机架中抽出。最后，冷却后的冷却液重新进入 CDU，循环往复。

据野村证券最新发布的《ANCHOR REPORT》显示，当前一些客户更倾向于使用液冷旁挂柜（独立机架，用于液体-空气冷却），而非机架内 CDU，因为它更易于部署，且无需更改现有数据中心基础设施（只需用一两个液冷旁挂柜替换一个服务器机架）。

液冷正带来高成本问题

从近期海外厂商情况来看，尽管对H100/H200 HGX来说液冷并不是必然选择，但 很多厂商依然选择配置了纯液冷方案，主要原因是出于节能角度的中长期成本层面考虑 。例如，特斯拉和X公司向Supermicro和戴尔下达了采用液液冷却的 H100/H200 订单。 虽然液冷的初始成本较高，但运营中的节能效果可在较短时间内收回前期投入。

液冷的初始成本高在了哪里呢？上文中提到的 3D VC 是目前主要的解决方案， 具备更好的散热能力，但 问题就是成 本更高 。 3D VC是热管和蒸汽室的组合，底部是一个顶部带孔的蒸汽室，可焊接开放式热管。由于蒸汽空间更大，实现了500-1000W的散热能力，优于热管和传统VC的<500W。然而，由于制造复杂，3D VC的价格至少是传统 VC 的两倍，也因此，当前 3D VC被认为只是主流AI服务器的过渡性产品。

当前液冷系统的成本结构分析显示，风冷系统每千瓦的成本约为6000元，包含水泵、冷塔、冷机、管路、阀门和精密空调等设备。而 冷板系统的成本已降低至每千瓦 7000至8000元之间 。相比之下，单相浸没液冷的成本为每千瓦10000元，双相浸没液冷则高达每千瓦13000元。

中国42个液冷智算中心布局及液冷核心产业分析｜算力产业核心内刊No.5

正文

请到「今天看啥」查看全文