我研究整机柜的热情,是浪潮集团互联网行业部产品总监孙波都知道的。so,到位于济南孙村产业园的浪潮智能工厂参观整机柜生产线这种机会,岂能错过?
出发前的下午,正好应某硬盘大厂成功转型SSD大厂的朋友之邀,给他们的客户讲一下现代化数据中心的技术趋势。一如既往的,我把整机柜服务器作为“硬件重构”的范例,而且重申“整机柜(服务器)最初是一种交付方式,后来演进为一类产品,现在并存着多个标准。”
现代化数据中心的一个核心理念,就是由传统的工程施工项目转向工厂预制产品、模块化现场组装。原因很简单,工厂的加工设施比数据中心场地更完备而专业,进行复杂操作的一致性和效率具备明显优势。如果更多的环节能够在工厂完成,数据中心的现场部署速度会大大加快,质量也更有保证。
不妨举个具体的例子。我们知道,出于管理和安全等考虑,服务器的拆包工作必须在机房外面完成。比较讲究的数据中心会设有专门的服务器拆包间,用于存放运送来的服务器等IT设备,并作为拆包工作的场地,如下图:
嗨,Siri,听清楚了,不是“开包间”,我要找的图是“拆包间”——对,就是这张:
2017年最后一日,去怀来参观某即将公开的模块化hyperscale数据中心,服务的对象可能你今天正在用。在此处拆包的服务器,进入机房前还要经过初步的测试,以防有瑕疵的个体影响到机柜内的其他设备
当然,也有不愿意把建筑空间“浪费”在这等小事上的数据中心:
这家数据中心的主人绝非无名之辈……不过,露天拆包的服务器,肩扛车拉到机房里上架的过程,太不工业化了
从上面这两个实例不难感受到,占据市场主流的机架式服务器虽然可以视为模块化的IT单元,但是一台台拆包搬进机房、推进机柜的上架过程,还是带有浓浓的项目施工的意味,不同的数据中心做法差异很大。
如果将服务器上架的过程转移到工厂里完成,就是以整机柜服务器的方式交付了。对服务器保有量在十万台以上、动辄一次在一个数据中心部署成百上千台服务器的超大规模(hyperscale)用户来说,服务器部署的颗粒度从一台上升到几十台,速度大为提升。拆包的对象也可以简化为机柜——当然,与分别运送(空)机柜和(机架式)服务器进机房再组装相比,部署整机柜服务器对数据中心的地面承重、电梯、通道设计等场地元素提出了更高的要求。
与空机柜相比,运输整机柜服务器的要求也更高。为了避免运输过程中暴力装卸、突发状况等因素导致意外的设备故障,浪潮采用了一种特制的冲击标签来检测道路运输。标签中间有液体,用来检测在一定时间范围内被检测货物所受到的冲击力,当冲击力超过标签对应规格时,其中的液体就会从无色变为标签对应颜色(如图左侧黄色标签,在受到50ms大于25G的冲击时变为黄色),颜色变化不可逆转,以此来规范、监控整机柜物流运输装卸过程
浪潮智能工厂生产的整机柜服务器是一类产品,而不仅仅是一种交付方式。整机柜从交付方式到产品,可以说是把机柜及其中的服务器节点作为一个整体看待,不断做减法(去除冗余部件)的过程。
作为一种交付方式的整机柜服务器,可以在工厂里生产出常规的1U/2U机架式服务器之后,直接安装到机柜上,省去了先包装再拆包的过程,自然也省掉了原本每台服务器出厂都要有的包装材料。环保当然是好事,但这些(机架式)服务器产品本身并没有任何变化。
稍微进一步,既然这些服务器肯定要一层紧贴一层、上下只有几个毫米空隙的安装在机架(Rack)上,那么,每个服务器节点的上盖(top cover)也就多余了。裁撤机架式服务器的上盖可以节约成本,却也仍然没有什么技术含量。
整合池化:从Open Rack到天蝎整机柜
整机柜迈向产品化的典型操作是集中供电,OCP旗下的Open Rack和ODCC旗下的天蝎整机柜,都采用了取消服务器节点的供电模块(PSU),将PSU集中到一起(池化),通过12V(Open Rack已加入48V)直流铜排统一为所有节点供电的方式。
如果机柜上有30U的IT空间,粗略估算:
可以放32台1U或16台2U规格的机架式服务器,每台服务器有2个PSU(1+1冗余),就是64个或32个PSU;
池化供电后最多10个PSU,N+N或N+1冗余(天蝎2.0+规范)。
2015年2月初第50000台(节点数)SR整机柜下线仪式上的浪潮SR 4.0整机柜服务器,在机柜中部配置了10个PSU
直观的效果就是PSU的数量不到原来的三分之一(乃至六分之一),池化供电的好处包括(而不限于):
-
冗余度降低到合理的水平,对大多数应用场景(尤其互联网)来说,50%的冗余度过高,意味着近一半的PSU被“浪费”;
-
购置成本节约,少量大功率PSU可以比大量小功率PSU更便宜;
-
供电效率提升,通常PSU的效率在50%输出时的效率最高,1+1配置的2个PSU很难做到这一点
-
故障点大为减少,且便于集中管理……
天蝎整机柜还进一步整合了散热(风扇),微软的OCS(Open Cloud Server) v1/v2也是如此。
继续上面的计算:
32台1U服务器,每台8个40mm风扇,总计256个风扇;
16台2U服务器,每台6个60mm风扇,总计96个风扇;每台5个80mm风扇,也要80个风扇。
从2.0版本起,天蝎整机柜——对应到浪潮的产品上,就是SR 4.0和4.5(天蝎2.5)——背部的风扇墙,统一为每4(S)U高度横置3个140×38(mm)的风扇,这样32U只需要24个风扇,不到1U方案的十分之一。
浪潮SR 4.0整机柜三视图,背面的风扇墙结构是天蝎2.0+ 整机柜的典型标志,另外也可以看到,最多8个PSU是常态
池化散热(风扇)同样有减少故障点、集中管理等优势,大口径风扇也容易具有更高的效率——这对Open Rack和天蝎整机柜的服务器节点形态造成了很大的影响。
2U服务器可以使用的60mm或80mm风扇,在效率上明显优于1U服务器能使用的40mm风扇。所以,不集中风扇的Open Rack,几个经典的计算和存储节点设计,高度都为2(O)U,以容纳80mm或60mm风扇。
最具代表性的就是Facebook主导设计的Open Vault,2(O)U的存储节点,里面的硬盘布置分为上下两层,很大程度上相当于2个1U的节点共享2U机箱的散热条件。
Open Vault正面明显的双层结构和背面的60mm风扇
天蝎整机柜就不用有1U的顾虑,所以在相当长一段时期里,节点的高度都是1U。由此,我们在只看到天蝎整机柜背影的情况下,也可以推断出其大致配备了多少节点。
整机柜标准:21英寸的挑战
业界的整机柜服务器标准除了天蝎和Open Rack,还有同在OCP旗下的微软OCS/Project Olympus,以及LinkedIn发起的Open19,浪潮全部加入,并在2017年的OCP峰会上,以OCP铂金会员的身份发布了符合OCP标准的整机柜服务器OR系列。所以,回国后在企事录主办的OCP分享会上,我笑言“感觉要是美团、今日头条什么的发布个整机柜标准,浪潮也会加入的。”
2017 OCP峰会上浪潮展出的两大系列整机柜服务器,可以看到左侧的SR 4.x节点均为1(S)U,右侧的OR节点均为2(O)U,与上一节的分析相符。如果说OR代表Open Rack,那么SR如今已经可以理解为Scorpio Rack的缩写
调侃归调侃,如今对应天蝎整机柜的浪潮SR系列,历史可以追溯到2010年,比OCP(Open Compute Project,开放计算项目,Facebook和Intel主导发起)和天蝎项目(Project Scorpio,百度、阿里、腾讯、英特尔发起)成立的时间(均为2011年)都早一年以上。
SR以一年迭代一次的速度推出了1.0和2.0两个版本,均采用节点竖插的设计。不过,2012年问世的Open Rack和天蝎整机柜标准,却都沿用了节点横插的(传统机架式服务器)布局。供应商的胳膊拗不过hyperscale用户们的大腿,浪潮很快推出了符合天蝎1.0整机柜服务器技术规范的SR 3.0。
浪潮SR系列整机柜服务器简史
Open Rack率先采用了21英寸(约538mm)节点宽度的设计,别看只比19英寸宽了2英寸(略超十分之一),却能多放四分之一的硬盘,二分之一的服务器(算术我讲过,本文不展开)。这个尝试总体上是成功的,于是天蝎2.0整机柜服务器技术规范迅速跟进,浪潮对应的产品就是SR 4.0。
天蝎整机柜与Open Rack规范的主要参数对比
21英寸的宽度,结合可以达到850mm的节点长度,天蝎整机柜的主要用户百度主导设计的“冰山”冷存储服务器(浪潮SN3116M4),达到了1U多至18个3.5英寸硬盘(在此基础上推出的JBOD为20个)的存储密度。仅从硬盘的数量而言,传统19英寸2U服务器的前置方案可以容纳12个3.5英寸硬盘,4U存储型服务器前后端都算上也才36个,单位高度的存储密度分别只有SN3116M4的40%和一半。
浪潮生产的百度冰山冷存储服务器,支持节点热维护。这个展示版本配置了18个希捷10TB氦气硬盘,板载1个M.2 2280 SSD作为系统盘。留意右侧(从正面看是左后侧)与铜排的结合部
天蝎1.0没有将节点宽度设计为21英寸,主要担心“皮薄馅大”机柜的强度吃不消,实际上节点也要面临类似的考验。由于宽度“超标”,装载(硬盘等部件)重量又大,天蝎整机柜的节点经过较长时间的使用后,中部难以避免的会下垂,在节点相邻的情况下,有可能难以拉出。适度加大节点间距是常见的解决方案:
百度Cloud Rack 2.0(对应浪潮SR 4.0),可见上数第1和第3个节点中部已明显变形
上面提到的这些整机柜服务器的特性,对了解为什么及如何在智能工厂生产,是很有帮助的。
智能工厂:多种机柜,两条产线