(本文编译自electronicdesign)
如今,随着机架功耗飙升至前所未有的水平,数据中心领域正在发生巨大变革。在计算密集型人工智能(AI)和高性能计算(HPC)应用的推动下,数据中心已迅速从只需采用风冷策略为10至20千瓦的机架散热,转变成为配备英伟达Grace Blackwell超级芯片的120千瓦机架散热——而这仅针对单个机柜的散热需求!
传统风冷技术根本无法有效应对如此高的散热需求,这为新型液冷技术的发展铺平了道路。当前主流液冷方案主要分为两大类别:"直触芯片式"与"浸没式"。与传统气体冷却方式不同,这些技术通过水或绝缘液体等液态介质来为设备散热。
随着行业向可持续AI未来迈进,为满足持续增长的计算需求而建立的AI工厂正在兴起,液冷技术必将成为数据中心应对散热管理、能耗控制及空间利用等核心挑战的关键赋能技术。事实上,面对新一代GPU高达1200瓦的功耗水平,液冷技术已从“锦上添花”演变为“绝对刚需”。随着全球对这项技术需求的激增,Mordor Intelligence等机构预测,到2029年,液冷技术市场的规模将达到148亿美元。
那浸没式与直触芯片式液冷的技术差异有哪些呢?两种方案均包含单相与双相两种技术路线。本文将从可持续性、能耗表现、易用性、风险控制、扩展能力及成本效益(见图1)等维度系统分析各方案的优劣势。
图1:市场细分显示直触芯片式与浸没式液冷方案下的技术变体。
浸没式液冷技术将服务器及其他电子组件完全浸没于绝缘液体中。设备运行时产生的热量被传导至周围冷却介质。受热后的冷却介质上升至液面,随后被输送至冷却系统进行热量消散,最后回流至设备所在的初始储液槽中。
沉浸式液冷有两种类型:
该技术方案将所有服务器及其他IT设备浸没于绝缘液体中。当CPU或GPU温度升高时,流体吸收其产生的热量。随后,这些受热流体被泵送至热交换单元进行冷却,冷却后的流体重新回流至设备所在的储液槽中(见图2)。
图2:单相浸没式液冷:设备完全浸没于绝缘液体中。
优点:
缺点:
-
浸没槽内所有设备(包括服务器、连接器、印刷电路板等)必须与绝缘液体兼容,以避免被液体损坏。这通常需要选用专用设备或对服务器进行改造;
-
由于服务器部分组件(如光纤连接器)无法在浸没环境下正常工作,需对服务器进行机械重构;
-
所用含碳氢化合物的流体具有易燃易爆特性,若数据中心发生火灾可能导致灾难性后果;
-
服务器维护困难,任何维护操作均需使用起重机将单个服务器吊出储液槽,并需等待30分钟滴液时间后方可开始维修;
-
流体若受到污染(例如混入水),需排空并清洗储液槽,可能导致长达一整天的停机时间。
与单相浸没类似,该技术方案同样将服务器及IT设备完全浸没于绝缘液体中。然而,当电路板上的组件温度升高时,会使流体沸腾产生蒸汽,这些蒸汽从液体中上升至储液槽顶部。储液槽顶部设有冷却水管网络,当槽内蒸汽接触冷却管时发生冷凝,重新液化为液体滴回槽内;同时,冷却管中的水温升高,通过热水将热量带出设备,最终从数据中心排出(见图3)。
图3:两相浸没:服务器设备浸没于绝缘液体中。
优点
:
缺点:
-
浸没槽内所有设备(包括服务器、连接器、印刷电路板等)必须与绝缘液体兼容,以避免被液体损坏。这通常需要选用专用设备或对服务器进行改造;
-
作为流体沸腾过程的一部分,强烈的气蚀现象会损坏信息技术部件、印刷电路板及焊接点;
-
需要对数据中心基础设施改造进行大量投资,因需配置大型重型储液槽来容纳设备,并加强建筑结构以承载额外重量;
-
由于液槽和浸没设备的重量,维护工作通常需要使用起重机,导致长时间停机。
-
每次开槽维护时,含全氟烷基物质(PFAS)的蒸汽会释放到环境中,每年造成约10%的液体损耗(数百升),并向大气中释放大量PFAS蒸汽。
与将整个服务器及其他IT设备浸没于液体中的浸没式液冷不同,直触芯片式液冷将冷却液输送至直接放置在高热流密度组件(如CPU和GPU)上方的冷板中。冷却液通过冷板吸收组件产生的热量,并始终封闭在冷板内部,不会直接接触芯片或服务器设备。
直触芯片式液冷被广泛认为比其他冷却方式更快、更高效,因为它能够精准针对主要发热区域进行散热。事实上,在近期Omdia分析师峰会上,他们的分析师指出:“当机柜功率超过50千瓦时,直触芯片式技术将占据主导地位。”
由于冷板主要安装在高热流密度组件上,因此服务器仍需配备风扇以排出低热流密度组件产生的多余热量。
直触芯片式液冷也有两种类型:
该液冷方法使用水作为冷板中的冷却介质。水始终保持液态,其散热能力取决于水流量——热量越高,所需的水流量越大。
优点: