前些天看到一篇不错的技术博客。由于我早年搞过一些服务器系统内的散热测试,但对机箱外——也就是数据中心整体的冷却方案只是一个旁观者。我趁机补习了少许知识,今天决定还是给大家写点分享。如有错误和不足之处欢迎专家朋友们指正。
我先将自己的理解和评论写在本文前面,然后我会把参考博客的原文链接和译文也
copy
在下面。读者可以选择自己的阅读顺序,直接先跳到后面看也没问题哈:)
根据客户需求来建议冷却方案
我来“汉化”上图中的名词解释
-
Rear Door Heat Exchangers
:后门换热器
,俗称机柜的水冷后门。如下图:
上图截自
energystar
(能源之星)的网站。早些年我写过互联网公司的整机架方案(如
OCP
),把服务器机箱内的风扇集中转移到机柜后门上。而后门换热器则相当于又加上了一大面冷水换热排,利用这个把流经服务器之后的热空气冷却下来。
-
DLC
:这个标准名词不用过多解释了。
直触式液冷,就是冷板
方案。
注:前年我写过一篇《
350W+
CPU
、
700W+
GPU
功耗:冷板和浸没式液冷哪个更有前途?
》,我想今天的市场数字验证了一些东西。
另外推荐
《冷板液冷工程标准化及技术优化》白皮书解读
-
In-Row Cooler
:列间空调
,也有人称为“行间空调”,应该主要是用于模块化数据中心吧。
上图引用自
Eaton
公司的文档。
In-Row Cooler
夹在一列机柜的中间,它从“后端”吸入服务器排出的热风,冷却后再从其“前端”排出——成为可以重复被服务器吸入的冷风。
列间空调提高效率的一个要点,就是要做到
冷热通道的隔离
(最好是完全隔离吧)。因此,在我参考的这篇博客文章中,都是
In-Row Cooler + Enclosure
结合在一起
使用的。
散热优化的原理,包括提高循环效率、优化(缩短)路径
。
冷板
是拿水替代空气,使用循环
效率更高的介质
;而
水冷后门
与
列间空调
则属于另一个方向——
缩短热空气的路径来提高制冷效率
,二者又各有特点。
-
Facility Water Temperature Up To
:最高设施水温度
。继续看上面的图表,后门换热器里面的水温要求较低(
22
℃),而列间空调的水温则可以提高到
32
℃,“
更高的设施水温度允许冷却水的冷水机以较低的能源运行
”。
-
Rack Density Up To
:最高机架功率
。如图:
·
仅使用
In-Row Cooler + Enclosure
时,单机柜(风冷)最高功率密度支持到大约
30kW
;
·
仅使用后门换热器,单机柜最高密度大约可达
60kW
,比传统风冷方案要强;
·
结合
DLC
冷板与列间空调,机架密度可提高到
90kW
;
·
结合
DLC
冷板与后门换热器,机架的功率密度相对最高,达到
120kW
。也就是
CPU
、高功耗
GPU
这些集中发热部件使用冷板液冷,服务器余下热量靠水冷后门来解决。
不同冷却方法使用的能源
需要注意的是,上图中的
“
IT
Energy
包括服务器内部的所有内容,包括内部风扇。
Cooling
Energy
代表从
CDUs
(冷却剂分配单元)或
CRACs
(计算机房空气处理器)开始的冷却项目,包括数据中心外的风冷冷水机
”。
我刚看到这张图时也有点疑惑,这可以粗略作为一个
PUE
的参考吗?
比如橙色柱形,从传统风冷到
DLC
冷板液冷,服务器内风扇耗电的节省看上去不很明显?其参考数据是针对双
CPU
服务器来设计的;而一旦使用
较高功率的
GPU
或者
CPU
(注:
Intel
、
AMD
下一代
CPU
TDP
也能达到
500W
),
风冷的效率将会降低
,这时冷板节省的服务器内风扇耗电占比就会大多了。
扩展阅读:《
Dell
PowerEdge R760
服务器:风冷
vs.
液冷散热限制
》
至于蓝色柱形,服务器以外的冷却能耗,这部分不是我擅长的。不过趋势可以看出来,无论
Cooling
Energy
还是整体能耗,都是
DLC
冷板
>
后门换热器
>
后门换热器
+
冷板
>
列间空调
>
列间空调
+
冷板
,这样越来越低的趋势。
当然在前面我也说了,有些超高功率密度的
HPC/AI
服务器用液冷比较多,就不见得都符合上面这个排名了。所以说仅供大家参考。
以上就是我的学习笔记,下面列出博客链接
&
译文(考虑篇幅英文原文就不粘了。由
kimi
翻译的,英文好的朋友也可以直接看原文)。
Diving Deep into the Liquid Server Cooling Choices
原文链接
https://www.dell.com/en-us/blog/diving-deep-into-the-liquid-server-cooling-choices/
深入探讨液态服务器冷却选择
通过选择、灵活性和效率应对服务器冷却挑战。
作者:
Travis Vigil |
2024
年
5
月
3
日
本文主题:
数据中心
| PowerEdge |
可持续性
随着戴尔科技不断创造推动人类进步的更多技术,可能会有障碍减缓这些新解决方案的采用。在数据中心,没有比
AI
工作负载更重要的领域来展示这些障碍了。
AI
和其他要求高的工作负载要求使用最新的
GPU
和
CPU
以提供所需的应用程序性能。这意味着在部署规划期间经常出现热和电源问题。为了帮助解决这些问题,戴尔的服务器热工程团队多年来一直在提供以客户为中心的一系列创新
——
戴尔智能冷却。例如,
Triton
是
2016
年早期的液态冷却服务器产品。如果我们快进到
2024
年,我们正在提供服务器冷却解决方案,如
Verne Global
正在使用的
Dell DLC3000 DLC
机架,以及提供每个机架高达
115
千瓦的戴尔模块化数据中心。
当前冷却选择
之前的博客已经涵盖了最新
CPU
和
GPU
的冷却需求,以及
PowerEdge
产品组合支持的不同冷却选项。部署这些最新的高功率服务器可能意味着每个机架产生的热量超过了传统空气冷却所能处理的冷却量。此外,客户希望在数据中心的电力使用上更加可持续和高效。因此,让我们看看数据中心冷却方法和策略,以及今天可供客户使用以支持这些日益增长的冷却需求。
这里快速概述了构建数据中心冷却环境时使用的最常见技术的基础知识。
直接液体冷却(
DLC
)使用冷板直接接触内部服务器元件,如
CPU
和
GPU
;然后使用液体冷却冷板并将热量从这些处理器中传送走。
行内冷却解决方案旨在部署在数据中心通道内,与机架一起冷却并分发冷空气到精确位置。
后门热交换器(
RDHx
)通过安装在服务器机架后部的液体冷却热交换器捕获服务器热排气空气中的热量。
机壳指的是包含加热排气空气、冷却它并重新循环它的概念,所有这些都完全与数据中心的其他冷却空气隔离。
每种冷却技术支持不同的机架热密度和效率,为客户提供选择,以匹配他们的冷却解决方案要求。这些解决方案可以从一个机架部署到多个通道。行内冷却器,结合行或机架限制,捕获机架上
100%
的
IT
产生的热量。这意味着数据中心大厅所需的唯一空调是为了人类舒适。