专栏名称: 企事录
企事录为您分析点评企业IT和互联网基础设施及架构方面值得关注的话题,把握行业热点,看清产业趋势。
目录
相关文章推荐
高校人才网V  ·  招聘日报丨高校人才网2025年3月18日招聘 ... ·  昨天  
高校人才网V  ·  浙江农林大学暨阳学院2025年专任教师招聘公告 ·  2 天前  
高校人才网V  ·  青岛滨海学院2025年人才招聘公告 ·  昨天  
贵阳日报  ·  【晚安贵阳】我也像花一样,往春天里赶 ·  2 天前  
青塔  ·  英才汇聚 筑梦雁栖 | ... ·  3 天前  
51好读  ›  专栏  ›  企事录

整机柜的诞生

企事录  · 公众号  ·  · 2018-01-11 08:15

正文

我研究整机柜的热情,是浪潮集团互联网行业部产品总监孙波都知道的。so,到位于济南孙村产业园的浪潮智能工厂参观整机柜生产线这种机会,岂能错过?

出发前的下午,正好应某硬盘大厂成功转型SSD大厂的朋友之邀,给他们的客户讲一下现代化数据中心的技术趋势。一如既往的,我把整机柜服务器作为“硬件重构”的范例,而且重申“整机柜(服务器)最初是一种交付方式,后来演进为一类产品,现在并存着多个标准。”

现代化数据中心的一个核心理念,就是由传统的工程施工项目转向工厂预制产品、模块化现场组装。原因很简单,工厂的加工设施比数据中心场地更完备而专业,进行复杂操作的一致性和效率具备明显优势。如果更多的环节能够在工厂完成,数据中心的现场部署速度会大大加快,质量也更有保证。

不妨举个具体的例子。我们知道,出于管理和安全等考虑,服务器的拆包工作必须在机房外面完成。比较讲究的数据中心会设有专门的服务器拆包间,用于存放运送来的服务器等IT设备,并作为拆包工作的场地,如下图:

嗨,Siri,听清楚了,不是“开包间”,我要找的图是“拆包间”——对,就是这张:

2017年最后一日,去怀来参观某即将公开的模块化hyperscale数据中心,服务的对象可能你今天正在用。在此处拆包的服务器,进入机房前还要经过初步的测试,以防有瑕疵的个体影响到机柜内的其他设备

当然,也有不愿意把建筑空间“浪费”在这等小事上的数据中心:

这家数据中心的主人绝非无名之辈……不过,露天拆包的服务器,肩扛车拉到机房里上架的过程,太不工业化了

从上面这两个实例不难感受到,占据市场主流的机架式服务器虽然可以视为模块化的IT单元,但是一台台拆包搬进机房、推进机柜的上架过程,还是带有浓浓的项目施工的意味,不同的数据中心做法差异很大。

如果将服务器上架的过程转移到工厂里完成,就是以整机柜服务器的方式交付了。对服务器保有量在十万台以上、动辄一次在一个数据中心部署成百上千台服务器的超大规模(hyperscale)用户来说,服务器部署的颗粒度从一台上升到几十台,速度大为提升。拆包的对象也可以简化为机柜——当然,与分别运送(空)机柜和(机架式)服务器进机房再组装相比,部署整机柜服务器对数据中心的地面承重、电梯、通道设计等场地元素提出了更高的要求。

与空机柜相比,运输整机柜服务器的要求也更高。为了避免运输过程中暴力装卸、突发状况等因素导致意外的设备故障,浪潮采用了一种特制的冲击标签来检测道路运输。标签中间有液体,用来检测在一定时间范围内被检测货物所受到的冲击力,当冲击力超过标签对应规格时,其中的液体就会从无色变为标签对应颜色(如图左侧黄色标签,在受到50ms大于25G的冲击时变为黄色),颜色变化不可逆转,以此来规范、监控整机柜物流运输装卸过程

浪潮智能工厂生产的整机柜服务器是一类产品,而不仅仅是一种交付方式。整机柜从交付方式到产品,可以说是把机柜及其中的服务器节点作为一个整体看待,不断做减法(去除冗余部件)的过程。

作为一种交付方式的整机柜服务器,可以在工厂里生产出常规的1U/2U机架式服务器之后,直接安装到机柜上,省去了先包装再拆包的过程,自然也省掉了原本每台服务器出厂都要有的包装材料。环保当然是好事,但这些(机架式)服务器产品本身并没有任何变化。

稍微进一步,既然这些服务器肯定要一层紧贴一层、上下只有几个毫米空隙的安装在机架(Rack)上,那么,每个服务器节点的上盖(top cover)也就多余了。裁撤机架式服务器的上盖可以节约成本,却也仍然没有什么技术含量。

整合池化:从Open Rack到天蝎整机柜

整机柜迈向产品化的典型操作是集中供电,OCP旗下的Open Rack和ODCC旗下的天蝎整机柜,都采用了取消服务器节点的供电模块(PSU),将PSU集中到一起(池化),通过12V(Open Rack已加入48V)直流铜排统一为所有节点供电的方式。

如果机柜上有30U的IT空间,粗略估算:

可以放32台1U或16台2U规格的机架式服务器,每台服务器有2个PSU(1+1冗余),就是64个或32个PSU;

池化供电后最多10个PSU,N+N或N+1冗余(天蝎2.0+规范)。

2015年2月初第50000台(节点数)SR整机柜下线仪式上的浪潮SR 4.0整机柜服务器,在机柜中部配置了10个PSU

直观的效果就是PSU的数量不到原来的三分之一(乃至六分之一),池化供电的好处包括(而不限于):

  • 冗余度降低到合理的水平,对大多数应用场景(尤其互联网)来说,50%的冗余度过高,意味着近一半的PSU被“浪费”;

  • 购置成本节约,少量大功率PSU可以比大量小功率PSU更便宜;

  • 供电效率提升,通常PSU的效率在50%输出时的效率最高,1+1配置的2个PSU很难做到这一点

  • 故障点大为减少,且便于集中管理……

天蝎整机柜还进一步整合了散热(风扇),微软的OCS(Open Cloud Server) v1/v2也是如此。

继续上面的计算:

32台1U服务器,每台8个40mm风扇,总计256个风扇;

16台2U服务器,每台6个60mm风扇,总计96个风扇;每台5个80mm风扇,也要80个风扇。

从2.0版本起,天蝎整机柜——对应到浪潮的产品上,就是SR 4.0和4.5(天蝎2.5)——背部的风扇墙,统一为每4(S)U高度横置3个140×38(mm)的风扇,这样32U只需要24个风扇,不到1U方案的十分之一。

浪潮SR 4.0整机柜三视图,背面的风扇墙结构是天蝎2.0+ 整机柜的典型标志,另外也可以看到,最多8个PSU是常态

池化散热(风扇)同样有减少故障点、集中管理等优势,大口径风扇也容易具有更高的效率——这对Open Rack和天蝎整机柜的服务器节点形态造成了很大的影响。

2U服务器可以使用的60mm或80mm风扇,在效率上明显优于1U服务器能使用的40mm风扇。所以,不集中风扇的Open Rack,几个经典的计算和存储节点设计,高度都为2(O)U,以容纳80mm或60mm风扇。

最具代表性的就是Facebook主导设计的Open Vault,2(O)U的存储节点,里面的硬盘布置分为上下两层,很大程度上相当于2个1U的节点共享2U机箱的散热条件。

Open Vault正面明显的双层结构和背面的60mm风扇

天蝎整机柜就不用有1U的顾虑,所以在相当长一段时期里,节点的高度都是1U。由此,我们在只看到天蝎整机柜背影的情况下,也可以推断出其大致配备了多少节点。

整机柜标准:21英寸的挑战

业界的整机柜服务器标准除了天蝎和Open Rack,还有同在OCP旗下的微软OCS/Project Olympus,以及LinkedIn发起的Open19,浪潮全部加入,并在2017年的OCP峰会上,以OCP铂金会员的身份发布了符合OCP标准的整机柜服务器OR系列。所以,回国后在企事录主办的OCP分享会上,我笑言“感觉要是美团、今日头条什么的发布个整机柜标准,浪潮也会加入的。”

2017 OCP峰会上浪潮展出的两大系列整机柜服务器,可以看到左侧的SR 4.x节点均为1(S)U,右侧的OR节点均为2(O)U,与上一节的分析相符。如果说OR代表Open Rack,那么SR如今已经可以理解为Scorpio Rack的缩写

调侃归调侃,如今对应天蝎整机柜的浪潮SR系列,历史可以追溯到2010年,比OCP(Open Compute Project,开放计算项目,Facebook和Intel主导发起)和天蝎项目(Project Scorpio,百度、阿里、腾讯、英特尔发起)成立的时间(均为2011年)都早一年以上。

SR以一年迭代一次的速度推出了1.0和2.0两个版本,均采用节点竖插的设计。不过,2012年问世的Open Rack和天蝎整机柜标准,却都沿用了节点横插的(传统机架式服务器)布局。供应商的胳膊拗不过hyperscale用户们的大腿,浪潮很快推出了符合天蝎1.0整机柜服务器技术规范的SR 3.0。

浪潮SR系列整机柜服务器简史

Open Rack率先采用了21英寸(约538mm)节点宽度的设计,别看只比19英寸宽了2英寸(略超十分之一),却能多放四分之一的硬盘,二分之一的服务器(算术我讲过,本文不展开)。这个尝试总体上是成功的,于是天蝎2.0整机柜服务器技术规范迅速跟进,浪潮对应的产品就是SR 4.0。

天蝎整机柜与Open Rack规范的主要参数对比

21英寸的宽度,结合可以达到850mm的节点长度,天蝎整机柜的主要用户百度主导设计的“冰山”冷存储服务器(浪潮SN3116M4),达到了1U多至18个3.5英寸硬盘(在此基础上推出的JBOD为20个)的存储密度。仅从硬盘的数量而言,传统19英寸2U服务器的前置方案可以容纳12个3.5英寸硬盘,4U存储型服务器前后端都算上也才36个,单位高度的存储密度分别只有SN3116M4的40%和一半。

浪潮生产的百度冰山冷存储服务器,支持节点热维护。这个展示版本配置了18个希捷10TB氦气硬盘,板载1个M.2 2280 SSD作为系统盘。留意右侧(从正面看是左后侧)与铜排的结合部

天蝎1.0没有将节点宽度设计为21英寸,主要担心“皮薄馅大”机柜的强度吃不消,实际上节点也要面临类似的考验。由于宽度“超标”,装载(硬盘等部件)重量又大,天蝎整机柜的节点经过较长时间的使用后,中部难以避免的会下垂,在节点相邻的情况下,有可能难以拉出。适度加大节点间距是常见的解决方案:

  • Open Rack将每U的高度从标准RU(Rack Unit)的44.45mm,增加为48mm,名曰OU(Open U);

  • 天蝎2.0为了能在2.1米的机柜里容纳42个节点、2.3米46个节点,将每U的高度设定为相对折中的46.5mm(比RU高2mm),名曰SU(Scorpio U)。

百度Cloud Rack 2.0(对应浪潮SR 4.0),可见上数第1和第3个节点中部已明显变形

上面提到的这些整机柜服务器的特性,对了解为什么及如何在智能工厂生产,是很有帮助的。

智能工厂:多种机柜,两条产线







请到「今天看啥」查看全文