我研究整机柜的热情,是浪潮集团互联网行业部产品总监孙波都知道的。so,到位于济南孙村产业园的浪潮智能工厂参观整机柜生产线这种机会,岂能错过?
出发前的下午,正好应某硬盘大厂成功转型SSD大厂的朋友之邀,给他们的客户讲一下现代化数据中心的技术趋势。一如既往的,我把整机柜服务器作为“硬件重构”的范例,而且重申“整机柜(服务器)最初是一种交付方式,后来演进为一类产品,现在并存着多个标准。”
现代化数据中心的一个核心理念,就是由传统的工程施工项目转向工厂预制产品、模块化现场组装。原因很简单,工厂的加工设施比数据中心场地更完备而专业,进行复杂操作的一致性和效率具备明显优势。如果更多的环节能够在工厂完成,数据中心的现场部署速度会大大加快,质量也更有保证。
不妨举个具体的例子。我们知道,出于管理和安全等考虑,服务器的拆包工作必须在机房外面完成。比较讲究的数据中心会设有专门的服务器拆包间,用于存放运送来的服务器等IT设备,并作为拆包工作的场地,如下图:
嗨,Siri,听清楚了,不是“开包间”,我要找的图是“拆包间”——对,就是这张:
2017年最后一日,去怀来参观某即将公开的模块化hyperscale数据中心,服务的对象可能你今天正在用。在此处拆包的服务器,进入机房前还要经过初步的测试,以防有瑕疵的个体影响到机柜内的其他设备
当然,也有不愿意把建筑空间“浪费”在这等小事上的数据中心:
这家数据中心的主人绝非无名之辈……不过,露天拆包的服务器,肩扛车拉到机房里上架的过程,太不工业化了
从上面这两个实例不难感受到,占据市场主流的机架式服务器虽然可以视为模块化的IT单元,但是一台台拆包搬进机房、推进机柜的上架过程,还是带有浓浓的项目施工的意味,不同的数据中心做法差异很大。
如果将服务器上架的过程转移到工厂里完成,就是以整机柜服务器的方式交付了。对服务器保有量在十万台以上、动辄一次在一个数据中心部署成百上千台服务器的超大规模(hyperscale)用户来说,服务器部署的颗粒度从一台上升到几十台,速度大为提升。拆包的对象也可以简化为机柜——当然,与分别运送(空)机柜和(机架式)服务器进机房再组装相比,部署整机柜服务器对数据中心的地面承重、电梯、通道设计等场地元素提出了更高的要求。
与空机柜相比,运输整机柜服务器的要求也更高。为了避免运输过程中暴力装卸、突发状况等因素导致意外的设备故障,浪潮采用了一种特制的冲击标签来检测道路运输。
Shockokee防震
标签中间有液体,用来检测在一定时间范围内被检测货物所受到的冲击力,当冲击力超过标签对应规格时,其中的液体就会从无色变为标签对应颜色(如图左侧黄色标签,在受到50ms大于25G的冲击时变为黄色),颜色变化不可逆转,以此来规范、监控整机柜物流运输装卸过程
浪潮智能工厂生产的整机柜服务器是一类产品,而不仅仅是一种交付方式。整机柜从交付方式到产品,可以说是把机柜及其中的服务器节点作为一个整体看待,不断做减法(去除冗余部件)的过程。
作为一种交付方式的整机柜服务器,可以在工厂里生产出常规的1U/2U机架式服务器之后,直接安装到机柜上,省去了先包装再拆包的过程,自然也省掉了原本每台服务器出厂都要有的包装材料。环保当然是好事,但这些(机架式)服务器产品本身并没有任何变化。
稍微进一步,既然这些服务器肯定要一层紧贴一层、上下只有几个毫米空隙的安装在机架(Rack)上,那么,每个服务器节点的上盖(top cover)也就多余了。裁撤机架式服务器的上盖可以节约成本,却也仍然没有什么技术含量。
整合池化:从Open Rack到天蝎整机柜
整机柜迈向产品化的典型操作是集中供电,OCP旗下的Open Rack和ODCC旗下的天蝎整机柜,都采用了取消服务器节点的供电模块(PSU),将PSU集中到一起(池化),通过12V(Open Rack已加入48V)直流铜排统一为所有节点供电的方式。
如果机柜上有32U的IT空间,粗略估算:
可以放32台1U或16台2U规格的机架式服务器,每台服务器有2个PSU(1+1冗余),就是64个或32个PSU;
池化供电后最多10个PSU,N+N或N+1冗余(天蝎2.0+规范)。
2015年2月初浪潮第50000台(节点数)SR整机柜下线仪式上的SR 4.0整机柜服务器,在机柜中部配置了10个PSU
直观的效果就是PSU的数量不到原来的三分之一(乃至六分之一),池化供电的好处包括(而不限于):
-
冗余度降低到合理的水平,对大多数应用场景(尤其互联网)来说,50%的冗余度过高,意味着近一半的PSU被“浪费”;
-
购置成本节约,少量大功率PSU可以比大量小功率PSU更便宜;
-
供电效率提升,通常PSU在50%输出时的效率最高,1+1配置的2个PSU很难做到这一点;
-
故障点大为减少,且便于集中管理……
天蝎整机柜还进一步整合了散热(风扇),微软的OCS(Open Cloud Server) v1/v2也是如此。
继续上面的计算:
32台1U服务器,每台8个40mm风扇,总计256个风扇;
16台2U服务器,每台6个60mm风扇,总计96个风扇;每台5个80mm风扇,也要80个风扇。
从2.0版本起,天蝎整机柜——对应到浪潮的产品上,就是SR 4.0和4.5(天蝎2.5)——背部的风扇墙,统一为每4(S)U高度横置3个140×38(mm)的风扇,这样32U只需要24个风扇,不到1U方案的十分之一。
浪潮SR 4.0整机柜三视图,背面的风扇墙结构是天蝎2.0+ 整机柜的典型标志,另外也可以看到,最多8个PSU是常态
池化散热(风扇)同样有减少故障点、集中管理等优势,大口径风扇也容易具有更高的效率——这对Open Rack和天蝎整机柜的服务器节点形态造成了很大的影响。
2U服务器可以使用的60mm或80mm风扇,在效率上明显优于1U服务器能使用的40mm风扇,同样有助于省电。所以,不集中风扇的Open Rack,几个经典的计算和存储节点设计,高度都为2(O)U,以容纳80mm或60mm风扇。
最具代表性的就是Facebook主导设计的Open Vault,2(O)U的存储节点,里面的硬盘布置分为上下两层,很大程度上相当于2个1U的节点共享2U机箱的散热条件。
Open Vault正面明显的双层结构和背面的60mm风扇
天蝎整机柜就不用有1U的顾虑,所以在相当长一段时期里,节点的高度都是1U。由此,我们在只看到天蝎整机柜背影的情况下,也可以推断出其大致配备了多少节点。
整机柜标准:21英寸的挑战
业界的整机柜服务器标准除了天蝎和Open Rack,还有同在OCP旗下的微软OCS/Project Olympus,以及LinkedIn发起的Open19,浪潮全部加入,并在2017年的OCP峰会上,以OCP铂金会员的身份发布了符合OCP标准的整机柜服务器OR系列。所以,回国后在企事录主办的OCP分享会上,我笑言“感觉要是美团、今日头条什么的发布个整机柜标准,浪潮也会加入的。”
2017 OCP峰会上浪潮展出的两大系列整机柜服务器,可以看到左侧的SR 4.x节点均为1(S)U,右侧的OR节点均为2(O)U,与上一节的分析相符。如果说OR代表Open Rack,那么SR如今已经可以理解为Scorpio Rack的缩写
调侃归调侃,如今对应天蝎整机柜的浪潮SR系列,历史可以追溯到2010年,比OCP(Open Compute Project,开放计算项目,Facebook和Intel主导发起)和天蝎项目(Project Scorpio,百度、阿里、腾讯、英特尔发起)成立的时间(均为2011年)都早一年以上。
SR系列以一年迭代一次的速度推出了1.0和2.0两个版本,均采用节点竖插的设计。不过,2012年问世的Open Rack和天蝎整机柜标准,却都沿用了节点横插的(传统机架式服务器)布局。供应商的胳膊拗不过hyperscale用户们的大腿,浪潮很快推出了符合天蝎1.0整机柜服务器技术规范的SR 3.0。
浪潮SR系列整机柜服务器简史
Open Rack率先将节点拓宽为21英寸(约538mm,机柜外宽仍为600mm),别看只比传统的19英寸宽出2英寸(略超十分之一),却能多放四分之一的硬盘,二分之一的服务器(算术我讲过,本文不展开)。这个尝试总体上是成功的,于是天蝎2.0整机柜服务器技术规范迅速跟进,浪潮对应的产品就是SR 4.0。
天蝎整机柜与Open Rack规范的主要参数对比
21英寸的宽度,结合可以达到850mm的节点深度,天蝎整机柜的主要用户百度主导设计的“冰山”冷存储服务器(浪潮SN3116M4),达到了1U多至18个3.5英寸硬盘(在此基础上推出的JBOD为20个)的存储密度。仅从硬盘的数量而言,传统19英寸2U服务器的前置方案可以容纳12个3.5英寸硬盘,4U存储型服务器前后端都算上也才36个,单位高度的存储密度分别只有SN3116M4的三分之一和一半。
浪潮生产的百度冰山冷存储服务器,支持节点热维护。这个展示版本配置了18个希捷10TB氦气硬盘(6U的裸容量就超过1PB),板载1个M.2 2280 SSD作为系统盘。留意右侧(从正面看是左后侧)与铜排的结合部
天蝎1.0没有将节点宽度设计为21英寸,主要担心“皮薄馅大”的机柜强度吃不消,实际上节点也要面临类似的考验。由于宽度“超标”,装载(硬盘等部件)重量又大,天蝎整机柜的节点经过较长时间的使用后,中部难以避免的会下垂,在节点相邻的情况下,有可能难以拉出维护。适度加大节点间距是常见的解决方案:
百度Cloud Rack 2.0(对应浪潮SR 4.0),可见上数第1和第3个节点中部已明显变形
上面提到的这些整机柜服务器的特性,对了解为什么及如何在智能工厂生产,是很有帮助的。
智能工厂:多种机柜,两条产线
工厂生产的主要优势是机械化程度高,如果还是重度依赖人力解决,那么无论效率还是标准化程度,都不会比在数据中心现场施工有质的提升。
机械的传统长项包括力量大、不易疲劳、精确度高、一致性好,特别适合做重复性工作,生产高度标准化的产品;缺点是不够灵活,难以像人一样随机应变。
然而,浪潮的整机柜生产线必须具有高度的灵活性,因为浪潮不仅加入了所有的整机柜标准组织,有SR和OR这样的产品系列,还有自家的K1和InCloudRack,各建一组生产线显然是很没有效率的浪费行为。这就体现出了浪潮智能工厂的价值——只需要两条柔性产线,分别用于节点和主机(整机柜)的生产就可以了。
浪潮智能工厂的两条生产线,左侧为数据中心模块智能装备线,右侧的数据中心系统智能装备线上可见同时有K1和SR整机柜在生产
节点产线全名数据中心模块智能装备线,主要是对K1计算机模块或Rack(如SR)节点进行组装、班检、加电调试;主机产线全名数据中心系统智能装备线,主要是对K1和Rack机柜进行组装,并把模块装备线下线的物料进行入柜操作。这两条产线目前都已经实现了自动化物流,浪潮的MES系统会根据订单给AGV小车下发取货任务,AGV小车从后边仓库叉取机柜到上料站台,MES通过识别机柜的SN区分出机柜是K1还是Rack,根据订单类型配制出不同的工艺流程,输送到不同的工站。
浪潮智能工厂里的“扫地僧”——智能激光导引的AGV小车,通过墙上激光板的反射和地面贴的磁条来确定行进路径和方向
如果是K1机柜,智能锁螺丝机器人会根据MES系统下发的任务对K1机柜背板进行锁螺丝,6轴联动,重复精度在0.06mm上下,130颗螺丝用人工大概需要1个小时,现在能在8分钟内自动锁完,大大提高了生产效率。
它由机器人主控系统智能控制,通过机器人夹具上的CCD视觉系统对当前螺丝孔位进行图像定位,通过视觉系统抓取的螺丝孔坐标和图纸进行对比,只有在误差允许范围内才可以锁,否则会发出警报,相对人工锁螺丝来说提高了定位精度和质量稳定性。我们当天参观时两条生产线在配合生产SR系列,SR 4.0和4.5背部的风扇墙都是快拆设计,不需要智能锁螺丝机器人,所以也没有看到它工作。
是“锁螺丝”不是“索罗斯”
智能模块装备线共有10个生产单元,每个单元独立作业,可以同时生产10类不同类型的产品。譬如SR现有超过7种类型的扩展节点,包括面向AI、深度学习应用的协处理加速节点。机箱由工装板通过输送机直接输送至生产单元,料箱任务由MES系统下发给AGV调度系统,背驮式小车执行任务,从立库拣配线转运到节点线的物料缓存站。工装板和料箱使用RFID射频识别技术,进行位置的实时跟踪,控制机箱和料箱是同一订单,避免同时生产多批次时机箱和料箱混淆。
这张照片中依稀可见智能模块装备线的生产单元在生产18盘位的冷存储节点SN3116M4;我们参观当天,生产单元上主要在装配具有1个U.2规格的Intel DC P4510 SSD(1TB)、4个4TB希捷硬盘的双路Skylake节点
节点在生产单元组装完毕后,会由RGV小车运送至班检PQC工站,主要是产品外观检查和组装检查,比如是否有划痕,各类标签是否粘贴正确等,并通过摄像头对产品进行拍照回传给MES系统留档,方便产品质量追溯。班检合格产品会由RGV小车运送至加电检测工位,检查电源键、ID灯是否正常,使用扫码枪将节点SN扫入系统,系统进行自动校验配置信息。通过PQC班检能及时发现质量问题,节点入柜之前进行加电检测能提前发现节点质量问题,避免因为单个节点问题影响整机调试。调试完成的节点机箱会被送到也是6轴联动的智能分拣机器人,负载大速度也快,机械手会自动抓取节点放到自动伺服升降台上,一层一层送进去一共十层,完成后再通过AGV小车自动运到对面的系统智能装备线。
系统智能装备线充分体现了前面提到的主要优点:
力大
:不带节点的空SR,42U款230kg,46U款290kg,用几个人推拉当然也可以,但RGV小车运送起来举重若轻,平顺得很。特别是在装完节点之后,整机柜服务器的重量可以超过1吨,RGV小车安全稳健的优势就更为明显。
精准
:前面说过,与传统的机柜和机架式服务器相比,天蝎2.0/2.5规范决定了SR 4.0/4.5的机柜和节点“皮薄馅大”的属性,两者在没有结合在一起时,都是相对脆弱的——特别是节点(传统机架式服务器与机柜没有很强的依赖性,如硬性的电气连接)。仍以18盘位节点SN3116M4为例,其26kg左右的质量,两个人肯定抬得动,但是这些节点没有上盖、重量又大,本来就容易变形,后面还要与供电铜排、风扇墙结合,两个人如果配合不好,可能会影响一致性。
这张图提供了很多细节:
机柜
底部的包装材料一直都在,左侧待安装的节点,上面刚插入的节点…
特别是人会随着时间推移而变得疲劳,或者受到其他因素影响而不专注,这些都会导致生产质量的不稳定,智能组装机器人就不存在上述问题,它具有视觉感知、高精度位移传感器以及伺服控制系统,可以通过拍照获取机柜位置,以高精度位移传感器配合智能控制算法实现节点的自动对位入柜操作。
旋转,插入,我不停歇…
智能
:装配完成后的机柜会由轨道上的RGV小车运送到机柜出料口,由MES系统调度智能激光导引的叉车插取机柜送至对面的恒温恒湿压测中心进行老化测试。在这里,我们看到了多种不同配置的SR整机柜,体现了智能组装机器人“看单干活”的能力。