2.1. 政策指引,PUE 能耗管控持续重视
节能降碳政策指引。
2022年,为加快建立健全绿色低碳循环发展经济体系,推进经济社会发展全面绿色转型,中国各部委发布了诸多重磅政策措施,引导全社会加快形成低碳绿色生产生活方式的共识,为不同主体全方位节能降碳提供目标指引。
国内一线城市出台多条限制PUE指标的政策
,叠加东数西算对于能耗指标的要求,在一线城市建设数据中心难度加大,一线城市机柜资源稀缺性凸显。
北京,上海以及深圳陆续出台了关于限制数据中心建设PUE值的政策措施,全力规划建设绿色数据中心。
2.2 AI算力性能高速提升,能耗增长带来制冷新需求
AI算力性能不断提升。
根据英伟达,过去8年间算力千倍增长,算力的快速革新导致了当前对电力和热力需求的激增,也导致液冷技术逐步取代风冷成为选择。算力的背后支撑力量是电力,而电力最终会转化为热能,需要通过制冷散热过程来处理。算力芯片-电力-热力的架构解决方案是行业探索的重点。
GPU的不断迭代进化,带来能耗的增长
。
随着高密度CPU和GPU的发展,液冷技术进入了一个新的阶段。根据CDCC,液冷的驱动因素主要包括挖矿行为和显卡的需求,以及GPU、TPU等超级芯片的发展,而非CPU。随着AI时代下不断迭代新的GPU芯片,液冷需求有望不断激发,或将逐渐成为高性能数据中心的必选。2024年,新一代GB200发布时,英伟达设计了1200W的风冷和液冷两种方案,两者可以兼容,液冷也是这时候风起云涌。
A100服务器系统功耗明显提升。
以NVIDIA的DGX A100 640GB为例,其配置了8片A100 GPU,系统功耗达到最大6.5千瓦,未来随着A100服务器的应用增多,我们认为或将显著提升数据中心机柜的功耗。
机柜功率或将迎来大幅提升。
通常19英寸机柜和42U机柜是标准机柜,参考高度1U=4.445厘米,宽度19英寸约为48.26厘米,英伟达DGX A100 640GB宽度上基本约为19英寸,高度上大约为5.94U,以标准机柜42U为参考,最大限度可以放下约7台DGX A100 640GB服务器(实际需要预留散热、挪动、走线等的空间),最大功率可达到约45.5KW。
制冷散热主要方式:
目前发展的散热冷却技术主要有风冷和液冷两大类,其中风冷包括自然风冷和强制风冷,适用的机柜功率密度较低;液冷分为单相液冷和相变液冷。散热冷却系统所采用的冷却介质、冷却方式不同,移热速率差距大。传统风冷最高可冷却30 kW/r的机柜,对于30 kW/r以上功率密度的机柜无法做到产热与移热速率匹配,会使机柜温度不断升高导致算力下降甚至损害设备。
可以看到,采用A100后服务器功率大幅提升,参考上文若采用英伟达DGX A100 640GB服务器,单机柜的功率或将超过30kW,此时更适宜应用液冷的冷却方案。
从成本与效益角度,液冷技术的应用可以实现更高的IT产出,大约提升5-10%,另外液冷也会加速IT的重构。根据CDCC,目前数据中心的解决方案主要分为两类:一是更多地采用液冷封装,如GB200的解决方案;二是结合风冷和液冷的部分匹配组合,并进行相应的运维管理,IT和基础设施仍然按照传统方式做一定隔离。
在云计算时代,服务机和网络成本占比约占50%-60%的比重,IDC约占20%,到了GPU时代,IDC的投资和电费只占10%,即使IDC优化节能10-20%,其影响也相对较小。主要是GPU的更新速度快,两到三年更新一次,因此其成本折旧更为显著。在投资模型变化的背景下,尽管传统观念认为液冷的散热成本高于风冷,
但通过提高IT产出和降低整体PUE,液冷的成本可以得到回收,从而显示出其性价比,液冷今天才会成为GPU适合的解决方案。在这种情况下,液冷提高了基于单千瓦造价和综合成本优势,基础设施的能效不是关键,算力的有效散热才是关键。
当下,即便是在GPU算力中心方案中,选择通常在10到20千瓦的风冷功率密度或20KW以上板冷方案辅以风冷。尽管浸没式液冷在某些场景下有其应用,但在GPU浸没液冷解决方案中面临的兼容性、信号传输和腐蚀等问题使其不那么适用。
2.3. 空调系统是降低能耗的关键因素,液冷/蒸发冷却应用前景是星辰大海
降低机柜能耗的关键:空调系统。
根据 CDCC 数据,在不同 PUE 指标下,能耗占比呈现明显变化,越低 PUE 下空调系统的能耗占比呈现明显下滑。在 PUE 指标趋严下,机柜能耗的管控尤为重要,而降低 PUE 指标的关键因素,即为提供更高效、节能的空调系统,机房温控设备成为数据中心降本节能的重要突破口。
在数据中心发展集约化下,机房温控愈发受重视,而液冷以及蒸发冷却技术,凭借其更优的性能参数,越发受到数据中心厂商的重视,应用比例持续提升,市场空间广阔。
2.3.1. 液冷具备低噪高效优势,未来应用空间广阔
水具有更优热性能参数,应用液冷效率高
。
对比空气和水的热性能参数,可以发现水具有更大的密度、比热容以及导热系数,载热能力和传热能力均比空气强,
这也意味着使用更小体积的水可以实现冷却相同热量。
黄廷等人的研究显示,与传统风冷散热方式相比,
当使用循环水冷系统对数据中心进行散热时,总能耗可以降低约 50%。
应用液冷有效提升服务器使用效率与稳定性。
相较于传统风冷,液冷具备强冷却力,冷却能力是空气的 1000-3000 倍,可实现超高密度制冷。根据曙光实验室的数据,传统风冷的PUE 值多在 1.5 以上,
冷板液冷的 PUE 值可小于 1.2,
曙光浸没相变液冷的 PUE 值能低至1.04。同时具有低噪声(噪音可低于 50dB)的特点。
2.4. 液冷有望为行业趋势,空间广阔
电信运营商发布液冷白皮书,积极推动液冷应用。
2023年6月5日,在第31届中国国际信息通信展览会“算力创新发展高峰论坛”上,中国移动、中国电信、中国联通三家基础电信运营企业,邀请液冷产业链的相关代表企业共同面向业界发布了《电信运营商液冷技术白皮书》。电信运营商联合产学研上下游,凝聚行业合力,强化原创性、引领型关键核心技术攻关,全力打造高水平液冷生态链。同时,构筑开放生态,推进液冷机柜与服务器解耦,引领形成统一标准。此外,发挥规模优势,大力拓展应用。根据“白皮书”,运营商规划2025年及以后,50%以上项目规模应用液冷。我们认为,运营商侧积极推动液冷,有望带动整体液冷渗透率快速提升,拉动产业链繁荣。
浪潮“All in 液冷”,互联网厂商推进。
浪潮信息在2022年将“All in 液冷”纳入公司发展战略,在2023年上半年位列中国液冷服务器市场占比第一,占据了中国液冷近5成的市场份额(根据IDC数据)。目前浪潮信息已拥有 500 多项液冷技术领域核心专利,已参与制定与发布 10 余项冷板式液冷、 浸没式液冷相关设计技术标准。
此外,
多家互联网厂商纷纷推进液冷应用。如中联绿色大数据产业基地项目为字节跳动专用机房,机柜功率密度较高,末端采用风墙、板式液冷、浸没液冷等多种方式。润泽科技的液冷机柜也服务于国内某知名短视频企业;此外腾讯清远数据中心项目同样采用冷板式液冷等等。我们认为,行业推动液冷发展或成为必然趋势。
数据中心液冷市场规模广阔。
根据赛迪顾问,2022 年,中国液冷数据中心已基本完成了从“黑科技”到普惠应用的转变,发展的核心逻辑及部署方式已大致确定,2022 年中国液冷数据中心市场规模达到 68.4 亿元,2023H1 突破 50 亿元。同时 2023H1 液冷数据中心基础设施部署规模超 110MW。成本方面,2022 年液冷数据中心 1kW 的散热成本为近 6500 元,相比 2022 年已经下降了 54.2%,预计 2023 年 1kW 的散热成本有望降至 5000 元。