专栏名称: 企事录
企事录为您分析点评企业IT和互联网基础设施及架构方面值得关注的话题,把握行业热点,看清产业趋势。
目录
相关文章推荐
新京报评论  ·  家长不要总想着用特训学校“驯服”孩子 | ... ·  昨天  
CHINADAILY  ·  Business丨Policies to ... ·  2 天前  
剁椒TMT  ·  特斯拉Cybercab炸场,国产无人驾驶如何 ... ·  5 天前  
剁椒TMT  ·  特斯拉Cybercab炸场,国产无人驾驶如何 ... ·  5 天前  
51好读  ›  专栏  ›  企事录

从国产航母到AlphaGo:七问阿里浸没式液冷

企事录  · 公众号  ·  · 2017-06-06 08:18

正文

4月26日早上,我来到2017云栖大会·南京峰会的主会场门外,想先去阿里云“飞天·麒麟”浸没式液冷服务器的展台看上一眼。然而,展台前的热度更胜服务器的工作温度,一时半会挤不进去。正要举起手机拍下这热闹的景象,突然间,屏幕上弹出一条消息:第一艘国产航母在大连造船厂下水!

真是由南到北皆液冷啊!为什么这样说呢?因为新航母装备的相控阵雷达,由之前辽宁号的346型,升级为346A型:346型采用风冷/液冷混合系统,风冷系统的弧形外罩成为其外观上最明显的特征;346A型回归平板结构则得益于改用全液冷系统,配备了更多的收发单元,阵列面积也有所扩大。

用346A型取代346型的工作,已经受过国产航母的贴身保镖——052D型驱逐舰的验证。半个月之后,我去参观升级为非易失性存储技术制造基地的英特尔大连工厂(Fab68),正好路经大连造船厂,远观了几艘建造中的052D型驱逐舰。只可惜这么隔水相望,不可能了解到346A型雷达的液冷技术细节。

图中下方为大连造船厂建造中的两艘052D型驱逐舰,右上为其346A型雷达;左上为346型雷达,标志性的弧形外罩形成静压箱,如果战损会影响雷达的正常工作

看起来,如同其他被IT行业宣传为“黑科技”的技术,浸没式液冷具备如下要素:

  1. 修炼:在一些专业领域经过较长时间应用,相对成熟;

  2. 世外:距大众生活过远,新鲜感强;

  3. 伯乐:被具有足够大众吸引力的知名企业引入,宣传推广。

曙光在2015年6月展示的浸没式液冷方案,使用与“飞天·麒麟”同厂牌不同系列(注意键盘上方小字)的冷却液。经过高性能计算市场的积累,曙光在浸没式液冷方面的经验够丰富,至于展示水平就……

得到阿里云的强力加成,液冷这“旧时王谢堂前燕”,能否顺利“飞入寻常百姓家”?业内人士没有这么乐观,在某互联网巨头负责服务器设计的朋友就点评道:这个泡“水”的主意从七八年前开始隔两年看见一次。还没有中、大规模应用的例子。运维、保修是大问题。热量还是需要被转移走,数据中心需要从头特制。液冷还有很多别的玩法,整个泡上只能在这种场合吸引一下眼球了。斗胆估计后续还是不了了之

没错,难点就在“规模”二字。扩大应用规模带给行业新的挑战和机遇,而背后一定要有需求驱动,否则最终难免沦为噱头,很难真正从小众走向大众。接下来,本文试图通过回答几个大家关心的问题,由浅入深的探讨浸没式液冷的中、大规模应用前景。

不同背景的人,对浸没式液冷提出的问题能有多不同?“飞天·麒麟”的展台前摆放的是一套专门为现场展示而搭建的小型系统,连POC(Proof Of Concept,概念验证)都算不上——窃以为,以阿里的体量,西溪园区的那几套或许还可以。负责展台的工作人员很担心大家以为阿里云“飞天·麒麟”浸没式液冷服务器就是这个样子,但没想到九成以上的观众过来第一句话就是——

这里面(的液体)是水吗?

对此,有人笑言,应该在醒目处贴上“这里不是水!"免去一遍遍的解释。不过呢,这个问题却也有过滤器的作用,可以快速排除来者是业内人士的可能性。

但是,“是不是水”也并非全无讨论价值。水的比热容(表示物体吸热或散热的能力)可以说是常见液体和固体中最大的,比所有的有机溶剂(包括油)都高,低黏度、无毒害、不可燃……还有清洁环保、易于获得(再列举下去估计要抽自己了)等无可比拟的优点……但是,再多的优点也比不上一个足以致命的缺点——水具有一定的溶解能力,溶解了一些离子之后就会导电。所以,作为冷却剂,水主要被用于间接冷却系统,通过冷板与冷却对象交换热量,避免直接接触。

水在冷却管道中流动,以及通过冷板换热,都会产生能量损失,影响PUE(Power Usage Effectiveness,能源使用效率)也是难以完全避免的,尽量降低而已。冷板的主要缺点是与主板形状耦合较紧,定制化程度高,通用化程度低,会拉高采购成本。

Dell为eBay设计的某冷板方案演变

水显然不能用于浸没式液冷,那么,第二个问题来了——

这是油吗?

矿物油在高性能计算(HPC)领域用作浸没式液冷是不乏先例的。举例来说,在2012年底Top500榜单上有3套系统进入前100名、最高列第7位的TACC(Texas Advanced Computing Center,德州先进计算中心),从2010年4月开始安装Green Revolution Cooling(GRC)的浸没式液冷方案。小范围使用之后,TACC的评价是:即使在100度(注:应为华氏度,约38摄氏度)的夏天,系统依然正常运行。

矿物油的优点和缺点都在于沾个“油”。如前所述,矿物油的比热容也不如水,但要做到绝缘可不要太容易。以GRC的ElectroSafe冷却剂为例,一种无毒、透明、无味的绝缘矿物油混合物,能够满足浸没式液冷的基本要求。

作为冷却剂,常温下的液体和气体,比热容相差不是很大(通常在十倍以内),气体可以达到较高的流速,但更多的吃亏在密度上——如GRC声称ElectroSafe冷却剂按体积算的热容是空气的1200倍(比热容是按质量算的,考虑到流速上的劣势,按体积算有夸大效果的嫌疑)。不过,在直接接触的情况下,液体还要考虑残留等问题。

所以,作为一种直接液体冷却(直接液冷)技术,浸没式液冷的冷却能力比直接风冷强,效率又比间接液冷高。至于冷却能力能有多强,效率能有多高,是否便于维护,则很大程度上取决于冷却剂的具体特性。

矿物油可以归入可燃物范围,需要经过额外的防爆处理。譬如,ElectroSafe冷却剂被美国国家防火协会(NFPA)评为0-1-0物质:无人体健康风险,但也只能说是“不易燃”,可以接受包括水在内的任何灭火物质。

2012年10月的TACC矿物油浸没式液冷机柜,可以看到系统在运行中,矿物油透明而不够清澈

更重要的是,油的黏性给日常运维带来不便:

  • 运行中:矿物油的黏性比较高,即流动性比较差,冷却液泵要付出较多的能量让其流动起来;冷却液流出机柜所在的容器去到换热设备再回来,还要途经过滤设备,会进一步增大阻力。

  • 维护时:附着在设备上的矿物油很难处理,无论是清洗或其他手段,保养都很麻烦。

GRC的官网显示,其CarnotJet系统的mPUE (mechanical PUE) 低于1.05,可达1.03,并有TACC的证言加持——“冷却10千瓦的功率只消耗大约300瓦。”如果这个数字没有夸大,“飞天·麒麟”浸没式液冷服务器的(局部)PUE是不是会更低呢?

既不是水,也不是油,那“飞天·麒麟”用的冷却剂——

究竟是什么?

先说答案:3M的电子氟化液。

再说特性:兼具水和矿物油的优点,以及少数水所没有的……缺点。

电子氟化液清亮、透明,流动性好,看起来很像水,近观完全没有矿物油那种油乎乎的感觉,也难怪很多不明就里的人误以为它是水。

与水相比,电子氟化液最大的优势当然是绝缘。所以,有时会被用在需要它是水(看起来像水)但又不能是水(不导电)的场合,而不是出于散热的诉求。

没看明白?容咱举个栗子先:2013年日立(HGST,现属于WD)推出了氦气密封硬盘——顾名思义,内部填充氦气(Helium),外壳密封(传统空气硬盘有透气孔及过滤器,维持内外气压平衡)。为了更直观的展示这一与众不同之处,日立多次在展会上把氦气硬盘泡“水”来突出其密封性,从最初的He6(6TB)到He8、He10和现在的He12,照片就不全列出了,以免喧宾夺主。

泡在电子氟化液中的Ultrastar He6充氦硬盘,注意容器上还标注了氦的分子量(4.0026)。7200RPM的硬盘远没到需要浸没式液冷散热的程度,当然右边的CPU受益于此,没有装散热片。后来在He8的展示中,CPU是加装了散热片的,氦分子量也标注为更精确的4.002602

前面提到的曙光展示和“飞天·麒麟”,则把氟化液用作浸没式液冷的冷却剂,也是本文要重点探讨的内容。

这就是真“相”?

目前“飞天·麒麟”使用的冷却剂,是Fluorinert电子液FC-72。Fluorinert是3M公司电子冷却液产品线的商标品牌名称,稳定的碳氟化合物液体,FC-72是其中的一种,学名全氟己烷(perfluorohexane),分子式C6F14,平均分子量338。FC-72具有良好的热稳定性和化学稳定性,而且可以和一些敏感材料相容、不燃、无毒无残留。由于“惰性十足”,FC-72还可以用作一些化学反应的介质。

不同的特性决定了,FC-72的用法与矿物油有着根本的区别。

基于矿物油的浸没式液冷方案,矿物油吸收热量后温度升高,但仍然是液体,并没有发生相变,属于“单相”液冷;而FC-72的沸点只有56℃,很容易沸腾,在汽化过程中带走热量,由于发生了相变,所以属于“两相”液冷。

水的常识告诉我们,汽化过程吸收的热量可比升温大得多。单相液冷完全靠比热容,FC-72当然也支持这种方式,但是氟化液和矿物油的比热容都比水低不少,有各自的极限。两相液冷的换热系数就要高得多,大约能达到单相循环式的10倍,单相不循环的100倍,空气循环的1000倍,是数量级的差异。

注意上面提到“循环”,两相液冷的冷却剂并不需要借助外力在管道中流动,而是在封闭容器内部通过“汽化-冷凝-再汽化”的过程形成自发循环,这个过程本身并不消耗机械能量。具体说来,CPU、内存等电子器件发出的热量被冷却剂吸收,达到沸点后汽化,蒸汽上升,到容器顶端遇到冷凝盘管,释放热量后凝结为液滴,再落下来完成循环过程。

阿里云宣传片中的“麒麟”浸没式液冷系统特写,可以看到(运行中的)服务器面板附近的冷却液沸腾现象,以及容器上方四周环绕的冷凝盘管

由于FC-72的沸点有50多度,冷凝盘管中的水温度不需要太低,室温(如30多度,无需空调冷机或低温的自然环境)就可以满足换热的要求,把热量带走,流到冷却塔等设施中降温,再返回到冷凝盘管。水侧的循环流动过程是要消耗机械能量的,但是水的流动阻力明显小于矿物油。3M方面认为,(基于氟化液的)两相液冷可以将PUE降至1.01~1.02,GRC的方案实际上要到1.08,因为矿物油流动阻力比较大,降温后回流还要过滤,所以1.1~1.2比较正常,而且换热系数也远低于两相液冷。

简单一句话:同为浸没式,两相液冷的效率比单相液冷更高。

真那么完美?

当然……没。

浸没式液冷最大的问题是维护,而且很有点儿“福祸相依”的意思,也就是“有一利必有一弊”:矿物油沸点高不易挥发,容器不用密闭,IT设备取出和放回容易,难点在取出来之后附着的矿物油粘稠不好处理;电子氟化液正相反,基本不用担心设备上的附着问题,但容器需要密闭以防挥发——两相液冷沸腾起来蒸汽逃逸更快,运行中取出和放回IT设备尤为困难。

没有证据表明FC-72是1972年问世的产品,但Fluorinert电子液产品家族的年头很可能更长——官方说法是:在电子行业设立标准40多年,军事和计算机领域都有很多直接接触电子冷却应用。历史可谓悠久,但缺乏大规模应用的先例。

始于1985年的超级计算机Cray-2就采用Fluorinert作为浸没式液冷的冷却剂,因为器件之间的距离过近(密度太高),留给气流的空间太小。还是在80年代,FC-72被用于高速列车上变压器的冷却。

大约在2000年前后,将两相液冷应用于计算机行业的工作逐渐开展。与变压器这类设备不同的是,服务器需要在不中断运行的情况下进行维护。虽说容器上方周围环绕的冷凝盘管会通过将蒸汽冷凝为液滴的过程,降低周边的局部气压,抑制蒸汽向上方逃逸,但仍无法完全避免打开上盖造成的冷却剂损失。

密封本身也是一大挑战。较大的容器容纳较多的服务器,理论上可以获得更高的效率,但是密封也就愈发困难。如前所述,矿物油不需要严格的密封起来,GRC的CarnotJet系统能够容纳标准的42U机柜——只不过是“躺下”的,服务器由水平(前后)安装转为垂直(上下)安装,这也是浸没式液冷系统的共同特点。

TACC的浸没式液冷系统,机柜“倒卧”在充满矿物油的容器中

在阿里云的宣传片里,可以看到位于西溪园区楼顶的集装箱里,至少有4个近乎方形的浸没式液冷柜,每个里面放置一个不到20U、类似天蝎2.5整机柜的系统,可容纳30个服务器节点,与总共100多个节点的说法相吻合。如果改为放置42U机柜,容器至少要增大一倍。当然,较小的容器,打开维护时,冷却剂的泄露也会少一些。据说,阿里在尝试通过抽负压等手段尽量减小开盖造成的流失。

一套“飞天·麒麟”浸没式液冷服务器的配置,架构基本左右对称(以画面为参照):中间是约3U的集中PSU(供电区),两边依次为交换机、5U的服务器节点(15个)和1U的疑似BBS(电池备份系统,3个模块)。集中PSU、21英寸内宽才能支持的1U3(双路服务器)布局和BBS,是天蝎2.5的典型特征。至于天蝎整机柜的另一典型特征——后部的集中风扇墙,在浸没式液冷的环境中应该是不需要了,拆掉即可

冷却剂的泄露除了造成经济损失、服务器“干烧”的潜在风险,对环境也会造成一定影响。FC-72化学性质稳定的特点可谓有利有弊:一方面,不会破坏臭氧层,臭氧消耗潜能值(ODP)为零;另一方面,不易分解,且分子量较大,会加剧温室效应,全球暖化潜势系数(GWP,以二氧化碳为基准)比同门的Novec系列要高。

密封不好当然不行,密封太好也要防范。因为两相液冷系统可以看作是一个压力容器,如果冷凝水的循环出现故障,不能通过冷凝盘管维持在沸点,气压就可能丧失平衡,逐渐上升无法控制,导致“爆缸”等灾难性事件。所以,数据中心的一体化管控系统非常重要,不仅能及时告警,还应具备必要时转移工作负载、甚至关闭服务器的能力。

完善的数据中心管理系统可以化解运维的部分压力,譬如可以借鉴微软的海底数据中心(也是把服务器密封在一个压力容器中,放到海床上),定期(拉上来)打开维护,或者干脆在整个生命周期内都不用维护,只要服务器的故障率没有超过设定值。

费这么大劲,微软图的是底层海水提供的免费冷源,可是——

巴巴图什么?

有位前辈说得好:如果不是因为效率和密度的问题,我们可能会永远使用空气来散热。

空气是最容易获得的冷却介质(想不“浸没”在里面反而有难度),比水还容易获得,又没有水的那些缺点(导电、腐蚀等),只要把它的温度降低到一定水平,流速提高到一定的水平,就是我们最熟悉的“风冷”了。如果能找到足够寒冷的地点,连给空气降温这事儿都有老天爷出面解决了,即所谓的新风自然冷。

自然冷源包括空气和水,但是海水要隔离,河水/湖水要过滤,而且最终还是用来冷却空气,而天然的冷空气几乎可以直接使用,中间环节越少,效率自然越高。完全看天吃饭毕竟不太现实,所以新风自然冷系统尚需水的相变加持,在环境温度较高时通过向空气中喷水(雾),利用水的蒸发过程吸收空气的热量(没有两相液冷的沸腾那么暴烈),达到降温的目的,即所谓“直接蒸发致冷”,Facebook的几个数据中心,和阿里数据港张北数据中心,都是这一技术路线的代表。

如果空气不够洁净,或者湿度已经较高,为了保护服务器等设备不受腐蚀,需要将机房内外部空气隔离,通过板式换热器(板换)交换热量,即“间接蒸发致冷”。条件具备的话,直接与间接蒸发致冷是可以结合使用的,譬如腾讯就向供应商定制了带新风功能的间接蒸发冷却机组。

空气“浸没”掺杂水的相变,简洁而不失效率,只要选址合适,数据中心的PUE降到1.1左右早已不是个例,所以各种新风方案近年来颇受互联网巨头们追捧。然而,计算元件功率密度的迅速提高,让越来越多的人起了疑问:未来,光靠吹还行吗?

这一波计算密度飙升的主要驱动力来自人工智能(AI)领域,为了加速深度学习等应用,hyperscale用户联合供应商,在相对狭小的服务器空间里,不断增加GPU的数量,从3U8、4U16到2U8、3U16,密度越来越高,而单个GPU的功耗则高达250~300W,构成了对供电和散热的双重挑战。以百度公开的GPU服务器为例,4U机箱就需要4kW左右的供电能力,一个8kW机柜放两台都悬……

如果电力供应得上,散热面临的形势就严峻了。5月下旬举行的二度围棋人机大战,基于初代TPU(Tensor Processing Unit)的AlphaGo完胜柯洁之后宣布退隐江湖,而第二代TPU已经踏上目标更为远大的征程。据分析,第一代TPU耗电约40W,而TPU2随着性能的显著提升,功耗也大为增长,估计不低于160W,两代产品之间,功耗翻了两番,令人咂舌。由此推算,一个TPU2机柜需要大约30~36kW的供电能力,以及相匹配的散热能力。

Google的TPU2单元,中间是两个TPU2机柜,边上是两个与之相连的CPU机柜(据推算,功耗各约20kW)

实践证明,每机柜20~30kW的负载,风冷还处理得来,曾有人半开玩笑的说“把风扇转速调高就可以了,反正数据中心对噪音的容忍度比较高。”也有些演示项目展现过每机柜40~50kW的冷却能力。我曾经在拉斯维加斯的SuperNAP数据中心远远的看过据说可达42kW的机柜,再往上的话……前两年Dell给eBay做了一个整机柜约50kW的方案,水冷系统通过冷板为CPU降温(前面提到的Triton),内存和PCIe仍为风冷,也从侧面证明,以风冷为主的方案已经力有不逮。

回到阿里的浸没式液冷方案,目前可以做到整柜80kW左右,目标是超过100kW,以满足未来几年(可能的)应用需求。这个级别的致冷能力,风冷确实难以企及。

下一步何方?

今年早些时候,DCD有一篇关于液冷应用前景的文章,作者在开头引用了一句话:“处理器级别的液冷是未来的潮流,它将在未来五年内改变数据中心产业。”然后补一刀——这句话及其变体,已经被说了至少十年了!

二三十千瓦的机柜密度,在HPC领域算不上什么,Top500以及强调绿色环保的Green500榜单中,也不乏各种液冷方案,包括为“飞天·麒麟”所借鉴的浸没式液冷。阿里云所面对的,是将浸没式液冷技术大规模应用的挑战。

如同前面所介绍的,冷板式、浸没式,单相和相变,不同的液冷技术,各有优点和适用范围。阿里巴巴选择了浸没式相变(两相)液冷的技术路线,具体决策过程,外人无从得知。阿里云“飞天·麒麟”浸没式液冷服务器集群2016年在杭州西溪园区部署,经过一年多的积累,选择在此时公之于众,有吸引更多人关注,特别是供应商加入,一起把生态做大的考虑。从长远看,能否尽快找到综合性能比FC-72更适用的冷却剂,以及更便于维护的整体方案,从而降低采用浸没式液冷的代价,都是很有价值的课题。

不过,大多数人可能更关注,如果“飞天·麒麟”浸没式液冷服务器扩大部署,会优先选择哪个数据中心?要大规模应用浸没式液冷,对服务器和数据中心都有相应的要求。据悉,阿里的目标是先在2017年致力于服务器重构,以适合液冷高密及单面维护操作,同时启动容器和供电的标准化,然后在2018年小批量灰度部署。

数据中心当然是自建(合建可能更为确切)的更方便下手,综合来看可以先排除千岛湖数据中心。虽然过滤后的湖水直接送进浸没式液冷系统的冷凝盘管,听起来比较诱人,但是后者并不需要那么低温度的冷凝水。更重要的一点可能是,在千岛湖及其周边地区,电力供应并不具备明显的优势。

然后就是张北了。张北有两大优势:一是气温低、空气洁净,为新风自然冷和水侧自然冷提供了丰沛的自然冷源;二是清洁能源,太阳能、风能物美价廉。后者为成规模部署浸没式液冷提供了可能——不是说“小批量灰度部署”么?如果能达到现在西溪园区部署规模的近100倍,放在超算系统里,已经不能算很小了……

如果一切顺利,或许到2020年之后,液冷可以覆盖阿里包括计算、存储、GPU在内的所有机型,达到真正的大规模部署。

套用Facebook今年特别爱说的一句话:

The journey is 1% finished !

最后附上《阿里云NASA黑科技:麒麟浸没式液冷数据中心》的宣传片供参考,或点击“阅读原文”看看阿里云自己是怎么散热的……