专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

AMD EPYC二代服务器预览:Dell扩展2U 4节点HPC机型

企业存储技术  · 公众号  ·  · 2019-09-22 09:00

正文

请到「今天看啥」查看全文


本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。


Socket SP3 OLGA-4094 封装的 EPYC 7702P PCIe 4.0 支持也是 AMD 这一代产品的重点特性。

随着 7nm 工艺、最多 64 核心的 AMD EPYC 二代 CPU 发布,近日我看到 Dell 也宣布了多款新的 PowerEdge 服务器型号。

扩展阅读:《 AMD 下一代 EPYC 服务器 (Zen2) :从 NUMA SMP 的轮回?

AMD EPYC 服务器 OS 兼容注意事项

多级 NUMA AMD EPYC 互连速率、位宽与功耗的关系

上面有 2 篇文是我针已有 AMD 服务器写的,大家可以作为参考对比看看。本文里我的重点不是 CPU 本身,而是服务器系统。

Dell 在此之前已有的 3 AMD 服务器型号: R6415 R7415 R7425 ,分别为 1U 单路、 2U 单路和 2U 双路。

本次发布的 PowerEdge R6515 R7515 R7525 就延续之前三款的定位,另外增加了 1U 双路的 R6525 ,以及 2U 4 节点(也是双路)的 C6525

2U 4 节点机箱容纳 512 CPU 核心

记得我在《 PowerEdge MX 看刀片服务器的进化 》中谈到过 2U 4 节点服务器机型,最初主要是针对 高密度 / 性价比的 HPC (高性能计算)市场,后来又赶上 HCI 超融合的春风。本次的 PowerEdge C6525 仍然主打 HPC 应用,尽管 AMD 还没有 Intel Xeon SP AVX-512 ,浮点性能有些吃亏,但这次 7nm 的核心效率提高不少,而且还有 64 Core 数量的明显优势,我觉得至少在 部分类型的计算任务 中能够领先。

记得我之前写过《 S9200WK :关于 56 400W Xeon 服务器系统的几点疑问 》, Intel Xeon Platinum9200 也是针对 HPC 市场,估计是由于能耗比等方面的限制,目前感觉该产品线的动静不大。毕竟 AMD 64 TDP 只有 200-225W

Dell 这次重点提到了 天气模型、科研、数字化制造和生命科学应用 ,当然还有 互联网 (我认为含云服务商)——这也是当前 AMD 服务器 CPU 的主要客户群体。

扩展阅读:《 2U4 节点 Xeon SP 服务器 ( ) PowerEdge C6420 更受重视

2U 4 节点 Xeon SP 服务器设计:扩展性与散热的权衡

上面列出这 2 个链接,是因为 C6525 复用了之前 Intel CPU 2U 4 节点服务器的机箱。除了 CPU PCIe 方面的差异之外,这次的 Dell AMD 机型还加入了(每节点) 2 个单插槽宽度 GPU 的支持。要知道由于 2U 4 节点的功率密度大,散热方面是比较有挑战的 ,所以之前的 C6420 就引入了风冷和液冷两种选项。


HPC 集群应用领域,液冷特别是 成熟的冷板式液冷 接受程度要好不少,比如我国曾经排在 Top500 榜首的神威太湖之光。

注:本文提到的新机型,目前资料还不太全,包括具体供货时间在内请以官方声明为准。

不写限制的不等于没有:背后大量测试工作

上图引用自《 Dell EMC PowerEdge R6515 Installation and Service Manual

如果不是产品规划设计、测试人员,估计较少有人会去主动关注服务器的一些使用限制,比如互斥配置。下面我给大家简单举个例子聊聊:

如果某款服务器的资料中没写这些类似的,不代表实际上就没有限制,也可能是测试不够充足

上图引用自《 Dell EMC PowerEdge R6515 Technical Specifications 》,其中提到了一些当前的散热限制。比如有些 PCIe 扩展卡只能支持到 35 的环境温度;前面板配满驱动器(对进风有一定影响)情况下有的网卡支持槽位受限;单条 128GB LRDIMM (上面颗粒多,也是发热大户)需要配 HPR 高速风扇,并且会影响到 Tesla T4 GPU 的支持

首先,不是每家知名的服务器厂商都会在规格文档 / 服务手册中写这么细,应该说这也是大厂负责任的一种体现。而在背后,其实涉及到大量的测试工作—— 散热还只是服务器研发的一部分 。我看到有不少用户都去横向对比不同品牌同配置服务器的价格,而真正重视产品品质的可能还不够多。要知道 每一款好的产品,都离不开大量的研发投入

如果是大型互联网用户选择 ODM/ 白牌服务器,许多兼容性、散热测试等都要自己投入人员来搞。 站在我这个曾经的服务器测试工程师角度来看,特别是 对于中小客户有些钱真不应该省啊

扩展性:SSD和GPU支持探讨


上图截自《 Dell EMC PowerEdge R7515 Technical Guide

Dell 一些机型的文档中,还列出了当前支持的 NVMe SSD (后续可能会有 SSD 型号加入)。这里我看到 3 家主要的供应商是 Intel 、三星和东芝,其中以 2.5 U.2 尺寸为主,也有 HHHL (半高半长) PCIe 扩展卡。比较受欢迎的 Intel 认证过型号最多,除了 P4510 P4610 之外,还有使用 3D XPoint Memory Optane P4800X

扩展阅读:《 SPDK 实战、 QoS 延时验证: Intel Optane P4800X 评测 (5)

PCIe lane 信道支持是 AMD EPYC 的一个优势,这可能影响到多个 GPU 或者 NVMe SSD 连接时的带宽。由于还不确定 PowerEdgeR7525 的具体规格,我先以现有的 R7425 为例,看看它的 GPU 支持情况:

使用 GPU 优化的 TensorFlow-TensorRT5.0 进行 CNN 推理 INT8 计算

上图示意这台服务器安装了 6 NVIDIA Tesla T4 GPU (都跑在 PCIe 3.0 x16 ,如果是 Intel Xeon SP CPU 机型,几乎不可能把每 CPU 控制的 48 PCIe lane (双 CPU 就是 96 )全给 x16 显卡用。而 AMD 则不同,单 / 双路服务器都能提供 128 PCIe lane ,具体在设计上侧重存储还是 GPU 就看情况了。


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流 技术 可以 加我的 QQ/ 微信: 490834312 。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号: HL_Storage

长按二维码可直接识别关注


历史文章汇总 http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”,查看更多历史文章
↓↓↓






请到「今天看啥」查看全文