专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
新浪科技  ·  【双11刚结束,#菜鸟驿站遭甩卖# | ... ·  昨天  
新浪科技  ·  【#爱尔眼科三年跌没2500亿#】在《202 ... ·  2 天前  
新浪科技  ·  【#苹果高管回应Macmini电源键在底部# ... ·  5 天前  
51好读  ›  专栏  ›  企业存储技术

2U 4节点Xeon SP服务器设计:扩展性与散热的权衡

企业存储技术  · 公众号  ·  · 2017-07-21 08:50

正文

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博ID:唐僧_huangliang,以便更好地与读者互动。


差不多伴随着Xeon SP这一代,我看到2U 4节点服务器在结构设计上出现两个分支:

 

a. 传统的驱动器前置,节点从后端抽换;

b.“盘-节点一体”前置,网络、PCIe I/O走机箱后端。

 

为什么出现这种分支,它们各有什么好处,又面临哪些限制呢?这就是我在本文中要跟大家讨论的。

 

首先更正一点,在昨天的《2U 4节点Xeon SP服务器 ()PowerEdge C6420更受重视》一文中,有朋友留言“XXV710支持iWARP的驱动i40iw已经有了”,不知Intel还会不会有专门的新款25GbE网卡控制器出来?

 

另外在最后一张照片中出现的白色PCIe扩展卡连接器,也有内行朋友认出是OCP规范定义的Mezz(网卡)连接器。如下图:

 

 

固定在节点主板上那块就是OCP Mezz卡,使C6420继续带有一定互联网/云计算的风格。在它的上方还可以支持另一块PCIe Mezz扩展卡,除了网卡之外,这个位置应该还可以通过转接套件来支持mini PERC RAID

 

 

除了M.2 SSD启动盘之外,每个C6420节点还可以支持3PCIe扩展卡(含SAS RAID/HBA)。

 

此外,该2U 4节点服务器支持的盘位,可以有以下几种选择:

 

-         24 x 2.5英寸直通背板(每节点6SAS/SATA驱动器);

-         24 x 2.5英寸每节点12盘(C6400机箱中配2个节点,偏存储应用);

-         24 x 2.5英寸每节点2SAS/SATA/NVMe + 4SAS/SATA

-         123.5英寸直通背板(每节点3SAS/SATA大盘);

-         无背板前面板无驱动器。

 

 

也许有朋友注意到,还有的2U 4节点服务器可以支持全部24NVMe SSD的配置,也就是每节点6个。那么这里面有什么讲究吗?

 

1、线缆连接复杂度

 

传统方式下,每个SATA接口的信号线是7pin,如果每节点6块盘总线缆pin数大约是42。比这再多一点走线负担也还好。

 

 

这台PowerEdge C6420使用的SATA连接器R940背板和R640(详见:《Dell PowerEdge R640NVMe直连、NDC网卡、PERC10一览》)上的宽端口PCIex8)物理外形差不多。这样一束线缆也能满足SATA硬盘/SSD直通连接的需求,如果换成SASRAID/HBAx4/x8 lane连接到背板的复杂度与之类似。

 

而如果换成每节点6U.2热插拔NVMe SSD支持,这样的连接器线缆就要3组,在2U 4节点比较拥挤的空间中走线可能就有些挑战了。

 

Xeon Scalable这一代2U 4节点服务器中,我看到有几款没有采用传统的结构设计,而是将驱动器热插拔背板拆分,把每个节点和对应的盘做成一体化,就像下图这样。

 

这里以某厂商的2U 4节点机型设计来举例,请留一下内存插槽数和CPU散热器的宽度,这个我在后面还会讨论。不过它支持的NVMe SSD也只有每节点2个,为什么类似结构也有区别呢?除了散热,可能还要结合应用需求来分析

 

2205W CPU+NVMe散热设计难度

 

如果是普通2U双路服务器支持24NVMe SSD比较正常,我在《Dell PowerEdge R740xd解析:服务器只看参数那就错了》中也没有特别提到散热的压力。而2U 4节点CPU的功率密度是普通2U4,再加上Xeon SP205W TDP的型号,如果前面板满配2425WSSD散热吃的消吗?

 

搞过散热设计/测试的朋友应该熟悉T-caseT-rise这些指标,如果35的进风温度服务器组件无法达到正常工作范围,还有一个取巧的办法——将环境温度要求下调至30℃、乃至20当然这样做不是没有代价,要求机房温度更低就意味着空调散热成本的上升,PUE不会太好看,至于Fresh-Air新风之类的更不用考虑了。

 

上述观点仅供参考,具体指标请咨询服务器厂商,我只是想指出散热设计也会有天花板。

 

33.5英寸大盘支持

 

 

如果采用盘-节点一体化设计,就只能做成最多62.5英寸驱动器支持了,3.5英寸大盘不太好放。

 

 

上图为3.5寸驱动器配置的PowerEdge C6420。一些超融合用户喜欢用1SSD(加转换托架后3.5英寸)+ 2个大容量硬盘的混合存储,主要是因为2.5寸硬盘的性价比没有这么高。

 

4、网络选择、PCIe模块设计和KVM连接

 

 

这个是前面列出的某厂商2U 4节点机型后端。在中间的电源上方,有8个网口直通连接到4个服务器节点。两侧有可抽出维护的PCIe扩展卡模块,提供每节点1-2PCIe卡的选项。

 

相比之下,传统的2U 4节点设计的网口和PCIe扩展卡都是随节点一体化的。在新形态设计中,单独的以太网和PCIe I/O模块应该会带来一些成本上升。

 

至于4个节点的管理控制,可以通过上图中的千兆管理网口,此外还有另一种KVM连接支持后面会提到。

 

 

712Intel Xeon Scalable发布会上,Celestica(天弘)的2U 4节点平台也属于“盘-节点一体”的设计,并号称支持全NVMe

 

我们注意到,机箱后端布局可以有更多个性化。如上图,每个NODEx IO模块抽出来之后,可以安装3PCIe扩展卡。此外还有冗余电源和SYSTEM I/O的位置,后者是集中管理模块。大家可能看出来了,没有专门的网口设计,也就是至少要插一块PCIe网卡了。

 

 

写到这里,让我想起了Dell PowerEdge FX2模块化服务器平台。由于它前端最多支持8个双路Xeon E5服务器节点(FC430),后部8个可单独维护的PCIe扩展卡位可以做11映射。如果配置为2U 4FC630节点,也可以配置为12 PCIe映射,中间支持PCIe SwitchI/O卡热插拔不知是否有帮助?

 

除了冗余电源之外,PowerEdge FX2还提供了2个网络接口模块,可选直通或者交换功能(多种版本)。一方面16网口可以确保8个节点都具备冗余网络连接,如果配交换的话机箱内的东西流量就不需要到外部交换机解决了。

 

左上角还有一个CMC管理模块,熟悉Dell刀片服务器的朋友应该对CMC不陌生了。

 

PowerEdge FX2CMC管理模块

 

M1000e刀片机箱中CMC模块有2个,FX2的设计应该是由空间限制和定位决定。CMC或者集中管理网口如果万一遇到问题,应该不会影响服务器节点的运行,在线更换模块后可以恢复对各节点BMC的管理。

 

下面再拿PowerEdge FC630中的PCIe Mezz卡来举个例子:

 

 

FX2机箱可以选择PCIe交换板、直通板和Fan ONLY(无PCIe扩展)三种规格,Mezz在这里的作用就是将PCIe信号转接到直通板或者交换板。目前普通的2U 4节点机型应该都没有PCIe Switch,因为FX2的模块化还有另外一种用法——将FD332中的2PERC RAID卡单元与计算节点连接(如下图),这里面就牵涉到对PCIe Switch的配置。

 

引用自《数据中心选址贵阳理由:天、地、电》一文,里面对PowerEdge FX2模块化存储单元FD332的设计做了简要解析。

 

 

这张图描述的设计,是在计算节点的前面板增加KVMUSB 3.0接口。如此一来就可以直接本地访问,代价是牺牲22.5英寸盘位,从每节点6盘位降至4盘位。

 

相比之下,像PowerEdge C6420C6320这样的传统结构设计,就不会有这种纠结。

 

5、内存密度——又回到散热的话题

 

记得在Intel发布会上午看完各家机器之后,我在EPSD展台与Intel一位美女聊了会。其中就谈到为什么有的2U 4节点服务器能做到24个内存插槽?就像下图中这款每颗CPU两侧各有6DIMM

 

这家ODM的节点,由于CPU散热器宽度受限,于是在风道后侧那个选择高鳍片密度以增加散热面积,而前面离我们较近的采用低密度散热片尽量减少风阻和温升(为后侧的CPU创造好条件)——散热能力的不足则靠热管和伸出两侧的鳍片来弥补。

 

看过上一篇的朋友应该知道C6420是每节点16个内存槽,比较宽松的同时位于风道后方的CPU散热尺寸可以加宽(这样做的原因我在《2U 4节点Xeon SP服务器 ()PowerEdge C6420更受重视》中解释过了)。Dell不是没有做24DIMM的能力,因为PoweEdgeFX2平台上的FC630就做到了,CPU散热器宽度同样受限,要知道新一代Xeon SP还有205W165WCPU

 

我想借此说明一点:内存槽数量等相关参数并不是越高越好,普通用户很难分辨出类似的高密度设计的局限和代价在哪里。比如近日另一家宣传的4U 100盘位服务器,即便散热能做好,这种高密度部署对共振、机柜供电和地板承重也提出了比较苛刻的要求。

 

6、满足应用需求才是王道

 

回到2U 4节点服务器的核心应用——HPC、云服务提供商和超融合领域,基本上CPU的大部分资源都要跑计算或者虚拟机,能够用来支撑存储IOPS的相对有限。因此每节点2NVMe SSD加上4SAS/SATA硬盘或者SSD的配置应该能满足绝大部分需求,我想这也是许多厂商不急于上全NVMe配置的原因。

 

比如以性能著称的ServerSAN软件ScaleIO,目前跑到每节点20IOPS已经相当快了,分布式存储的扩展性和弹性虽好,但其数据保护(副本等)和企业级特性的开销还是制约着单节点性能的发挥。这一点和我在《Dell EMC透露NVMe战略,为什么阵列还要等半年?》中讨论过传统存储有相似之处。

 

另一方面,目前使用SPDK那样的用户态polling的还比较少。对于有极致服务器本地IOPS需求的用户,不妨考虑下PowerEdge R640R740这样的传统1U/2U机型,8-24NVMe SSD支持还是比较过瘾的。

 

扩展阅读《SPDK实战、QoS延时验证:Intel Optane P4800X评测(5)


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage


长按二维码可直接识别关注

历史文章汇总(传送门):http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”,查看更多历史文章
↓↓↓