本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博ID:唐僧_huangliang,以便更好地与读者互动。
差不多伴随着Xeon SP这一代,我看到2U 4节点服务器在结构设计上出现两个分支:
a. 传统的驱动器前置,节点从后端抽换;
b.“盘-节点一体”前置,网络、PCIe I/O走机箱后端。
为什么出现这种分支,它们各有什么好处,又面临哪些限制呢?这就是我在本文中要跟大家讨论的。
首先更正一点,在昨天的《2U 4节点Xeon SP服务器 (上):PowerEdge C6420更受重视》一文中,有朋友留言“XXV710支持iWARP的驱动i40iw已经有了”,不知Intel还会不会有专门的新款25GbE网卡控制器出来?
另外在最后一张照片中出现的白色PCIe扩展卡连接器,也有内行朋友认出是OCP规范定义的Mezz(网卡)连接器。如下图:
固定在节点主板上那块就是OCP Mezz卡,使C6420继续带有一定互联网/云计算的风格。在它的上方还可以支持另一块PCIe Mezz扩展卡,除了网卡之外,这个位置应该还可以通过转接套件来支持mini PERC RAID卡。
除了M.2 SSD启动盘之外,每个C6420节点还可以支持3块PCIe扩展卡(含SAS RAID卡/HBA)。
此外,该2U 4节点服务器支持的盘位,可以有以下几种选择:
- 24 x 2.5英寸直通背板(每节点6个SAS/SATA驱动器);
- 24 x 2.5英寸每节点12盘(C6400机箱中配2个节点,偏存储应用);
- 24 x 2.5英寸每节点2个SAS/SATA/NVMe + 4个SAS/SATA;
- 12个3.5英寸直通背板(每节点3个SAS/SATA大盘);
- 无背板前面板无驱动器。
也许有朋友注意到,还有的2U 4节点服务器可以支持全部24个NVMe SSD的配置,也就是每节点6个。那么这里面有什么讲究吗?
1、线缆连接复杂度
传统方式下,每个SATA接口的信号线是7pin,如果每节点6块盘总线缆pin数大约是42。比这再多一点走线负担也还好。
这台PowerEdge C6420使用的SATA连接器与R940背板和R640(详见:《Dell PowerEdge R640:NVMe直连、NDC网卡、PERC10一览》)上的宽端口PCIe(x8)物理外形差不多。这样一束线缆也能满足SATA硬盘/SSD直通连接的需求,如果换成SASRAID卡/HBA,x4/x8 lane连接到背板的复杂度与之类似。
而如果换成每节点6个U.2热插拔NVMe SSD支持,这样的连接器线缆就要3组,在2U 4节点比较拥挤的空间中走线可能就有些挑战了。
在Xeon Scalable这一代2U 4节点服务器中,我看到有几款没有采用传统的结构设计,而是将驱动器热插拔背板拆分,把每个节点和对应的盘做成一体化,就像下图这样。
这里以某厂商的2U 4节点机型设计来举例,请留一下内存插槽数和CPU散热器的宽度,这个我在后面还会讨论。不过它支持的NVMe SSD也只有每节点2个,为什么类似结构也有区别呢?除了散热,可能还要结合应用需求来分析。
2、205W CPU+全NVMe散热设计难度
如果是普通2U双路服务器支持24个NVMe SSD比较正常,我在《Dell PowerEdge R740xd解析:服务器只看参数那就错了》中也没有特别提到散热的压力。而2U 4节点CPU的功率密度是普通2U的4倍,再加上Xeon SP有205W TDP的型号,如果前面板满配24个25W的SSD散热吃的消吗?
搞过散热设计/测试的朋友应该熟悉T-case、T-rise这些指标,如果35℃的进风温度服务器组件无法达到正常工作范围,还有一个取巧的办法——将环境温度要求下调至30℃、乃至20℃… 当然这样做不是没有代价,要求机房温度更低就意味着空调散热成本的上升,PUE不会太好看,至于Fresh-Air新风之类的更不用考虑了。
上述观点仅供参考,具体指标请咨询服务器厂商,我只是想指出散热设计也会有天花板。
3、3.5英寸大盘支持
如果采用盘-节点一体化设计,就只能做成最多6个2.5英寸驱动器支持了,3.5英寸大盘不太好放。
上图为3.5寸驱动器配置的PowerEdge C6420。一些超融合用户喜欢用1个SSD(加转换托架后3.5英寸)+ 2个大容量硬盘的混合存储,主要是因为2.5寸硬盘的性价比没有这么高。
4、网络选择、PCIe模块设计和KVM连接
这个是前面列出的某厂商2U 4节点机型后端。在中间的电源上方,有8个网口直通连接到4个服务器节点。两侧有可抽出维护的PCIe扩展卡模块,提供每节点1-2块PCIe卡的选项。
相比之下,传统的2U 4节点设计的网口和PCIe扩展卡都是随节点一体化的。在新形态设计中,单独的以太网和PCIe I/O模块应该会带来一些成本上升。
至于4个节点的管理控制,可以通过上图中的千兆管理网口,此外还有另一种KVM连接支持后面会提到。
在7月12日Intel Xeon Scalable发布会上,Celestica(天弘)的2U 4节点平台也属于“盘-节点一体”的设计,并号称支持全NVMe。
我们注意到,机箱后端布局可以有更多个性化。如上图,每个NODEx IO模块抽出来之后,可以安装3个PCIe扩展卡。此外还有冗余电源和SYSTEM I/O的位置,后者是集中管理模块。大家可能看出来了,没有专门的网口设计,也就是至少要插一块PCIe网卡了。
写到这里,让我想起了Dell PowerEdge FX2模块化服务器平台。由于它前端最多支持8个双路Xeon E5服务器节点(FC430),后部8个可单独维护的PCIe扩展卡位可以做1对1映射。如果配置为2U 4个FC630节点,也可以配置为1对2 PCIe映射,中间支持PCIe Switch对I/O卡热插拔不知是否有帮助?
除了冗余电源之外,PowerEdge FX2还提供了2个网络接口模块,可选直通或者交换功能(多种版本)。一方面16网口可以确保8个节点都具备冗余网络连接,如果配交换的话机箱内的东西流量就不需要到外部交换机解决了。
左上角还有一个CMC管理模块,熟悉Dell刀片服务器的朋友应该对CMC不陌生了。
PowerEdge FX2的CMC管理模块
在M1000e刀片机箱中CMC模块有2个,FX2的设计应该是由空间限制和定位决定。CMC或者集中管理网口如果万一遇到问题,应该不会影响服务器节点的运行,在线更换模块后可以恢复对各节点BMC的管理。
下面再拿PowerEdge FC630中的PCIe Mezz卡来举个例子:
FX2机箱可以选择PCIe交换板、直通板和Fan ONLY(无PCIe扩展)三种规格,Mezz在这里的作用就是将PCIe信号转接到直通板或者交换板。目前普通的2U 4节点机型应该都没有PCIe Switch,因为FX2的模块化还有另外一种用法——将FD332中的2个PERC RAID卡单元与计算节点连接(如下图),这里面就牵涉到对PCIe Switch的配置。
引用自《数据中心选址贵阳理由:天、地、电》一文,里面对PowerEdge FX2模块化存储单元FD332的设计做了简要解析。
这张图描述的设计,是在计算节点的前面板增加KVM和USB 3.0接口。如此一来就可以直接本地访问,代价是牺牲2个2.5英寸盘位,从每节点6盘位降至4盘位。
相比之下,像PowerEdge C6420、C6320这样的传统结构设计,就不会有这种纠结。
5、内存密度——又回到散热的话题
记得在Intel发布会上午看完各家机器之后,我在EPSD展台与Intel一位美女聊了会。其中就谈到为什么有的2U 4节点服务器能做到24个内存插槽?就像下图中这款每颗CPU两侧各有6个DIMM。
这家ODM的节点,由于CPU散热器宽度受限,于是在风道后侧那个选择高鳍片密度以增加散热面积,而前面离我们较近的采用低密度散热片尽量减少风阻和温升(为后侧的CPU创造好条件)——散热能力的不足则靠热管和伸出两侧的鳍片来弥补。
看过上一篇的朋友应该知道C6420是每节点16个内存槽,比较宽松的同时位于风道后方的CPU散热尺寸可以加宽(这样做的原因我在《2U 4节点Xeon SP服务器 (上):PowerEdge C6420更受重视》中解释过了)。Dell不是没有做24个DIMM的能力,因为PoweEdgeFX2平台上的FC630就做到了,CPU散热器宽度同样受限,要知道新一代Xeon SP还有205W和165W的CPU。
我想借此说明一点:内存槽数量等相关参数并不是越高越好,普通用户很难分辨出类似的高密度设计的局限和代价在哪里。比如近日另一家宣传的4U 100盘位服务器,即便散热能做好,这种高密度部署对共振、机柜供电和地板承重也提出了比较苛刻的要求。
6、满足应用需求才是王道
回到2U 4节点服务器的核心应用——HPC、云服务提供商和超融合领域,基本上CPU的大部分资源都要跑计算或者虚拟机,能够用来支撑存储IOPS的相对有限。因此每节点2个NVMe SSD加上4个SAS/SATA硬盘或者SSD的配置应该能满足绝大部分需求,我想这也是许多厂商不急于上全NVMe配置的原因。
比如以性能著称的ServerSAN软件ScaleIO,目前跑到每节点20万IOPS已经相当快了,分布式存储的扩展性和弹性虽好,但其数据保护(副本等)和企业级特性的开销还是制约着单节点性能的发挥。这一点和我在《Dell EMC透露NVMe战略,为什么阵列还要等半年?》中讨论过传统存储有相似之处。
另一方面,目前使用SPDK那样的用户态polling的还比较少。对于有极致服务器本地IOPS需求的用户,不妨考虑下PowerEdge R640、R740这样的传统1U/2U机型,8-24个NVMe SSD支持还是比较过瘾的。
扩展阅读《SPDK实战、QoS延时验证:Intel Optane P4800X评测(5)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
长按二维码可直接识别关注
历史文章汇总(传送门):http://chuansong.me/account/huangliang_storage