本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。
Socket SP3 OLGA-4094
封装的
EPYC 7702P
,
PCIe 4.0
支持也是
AMD
这一代产品的重点特性。
随着
7nm
工艺、最多
64
核心的
AMD EPYC
二代
CPU
发布,近日我看到
Dell
也宣布了多款新的
PowerEdge
服务器型号。
扩展阅读:《
AMD
下一代
EPYC
服务器
(Zen2)
:从
NUMA
到
SMP
的轮回?
》
《
AMD EPYC
服务器
OS
兼容注意事项
》
《
多级
NUMA
:
AMD EPYC
互连速率、位宽与功耗的关系
》
上面有
2
篇文是我针已有
AMD
服务器写的,大家可以作为参考对比看看。本文里我的重点不是
CPU
本身,而是服务器系统。
Dell
在此之前已有的
3
款
AMD
服务器型号:
R6415
、
R7415
和
R7425
,分别为
1U
单路、
2U
单路和
2U
双路。
本次发布的
PowerEdge
R6515
、
R7515
和
R7525
就延续之前三款的定位,另外增加了
1U
双路的
R6525
,以及
2U 4
节点(也是双路)的
C6525
。
2U 4
节点机箱容纳
512 CPU
核心
记得我在《
从
PowerEdge MX
看刀片服务器的进化
》中谈到过
2U 4
节点服务器机型,最初主要是针对
高密度
/
性价比的
HPC
(高性能计算)市场,后来又赶上
HCI
超融合的春风。本次的
PowerEdge C6525
仍然主打
HPC
应用,尽管
AMD
还没有
Intel Xeon SP
的
AVX-512
,浮点性能有些吃亏,但这次
7nm
的核心效率提高不少,而且还有
64 Core
数量的明显优势,我觉得至少在
部分类型的计算任务
中能够领先。
记得我之前写过《
S9200WK
:关于
56
核
400W Xeon
服务器系统的几点疑问
》,
Intel Xeon Platinum9200
也是针对
HPC
市场,估计是由于能耗比等方面的限制,目前感觉该产品线的动静不大。毕竟
AMD
的
64
核
TDP
只有
200-225W
。
Dell
这次重点提到了
天气模型、科研、数字化制造和生命科学应用
,当然还有
互联网
(我认为含云服务商)——这也是当前
AMD
服务器
CPU
的主要客户群体。
扩展阅读:《
2U4
节点
Xeon SP
服务器
(
上
)
:
PowerEdge C6420
更受重视
》
《
2U 4
节点
Xeon SP
服务器设计:扩展性与散热的权衡
》
上面列出这
2
个链接,是因为
C6525
复用了之前
Intel CPU 2U 4
节点服务器的机箱。除了
CPU
和
PCIe
方面的差异之外,这次的
Dell
的
AMD
机型还加入了(每节点)
2
个单插槽宽度
GPU
的支持。要知道由于
2U 4
节点的功率密度大,散热方面是比较有挑战的
,所以之前的
C6420
就引入了风冷和液冷两种选项。
在
HPC
集群应用领域,液冷特别是
成熟的冷板式液冷
接受程度要好不少,比如我国曾经排在
Top500
榜首的神威太湖之光。
注:本文提到的新机型,目前资料还不太全,包括具体供货时间在内请以官方声明为准。
不写限制的不等于没有:背后大量测试工作
上图引用自《
Dell EMC PowerEdge R6515 Installation and Service Manual
》
如果不是产品规划设计、测试人员,估计较少有人会去主动关注服务器的一些使用限制,比如互斥配置。下面我给大家简单举个例子聊聊:
如果某款服务器的资料中没写这些类似的,不代表实际上就没有限制,也可能是测试不够充足
…
上图引用自《
Dell EMC PowerEdge R6515 Technical Specifications
》,其中提到了一些当前的散热限制。比如有些
PCIe
扩展卡只能支持到
35
℃
的环境温度;前面板配满驱动器(对进风有一定影响)情况下有的网卡支持槽位受限;单条
128GB LRDIMM
(上面颗粒多,也是发热大户)需要配
HPR
高速风扇,并且会影响到
Tesla T4 GPU
的支持
…
首先,不是每家知名的服务器厂商都会在规格文档
/
服务手册中写这么细,应该说这也是大厂负责任的一种体现。而在背后,其实涉及到大量的测试工作——
散热还只是服务器研发的一部分
。我看到有不少用户都去横向对比不同品牌同配置服务器的价格,而真正重视产品品质的可能还不够多。要知道
每一款好的产品,都离不开大量的研发投入
。
如果是大型互联网用户选择
ODM/
白牌服务器,许多兼容性、散热测试等都要自己投入人员来搞。
站在我这个曾经的服务器测试工程师角度来看,特别是
对于中小客户有些钱真不应该省啊
。
扩展性:SSD和GPU支持探讨
上图截自《
Dell EMC PowerEdge R7515 Technical Guide
》
在
Dell
一些机型的文档中,还列出了当前支持的
NVMe SSD
(后续可能会有
SSD
型号加入)。这里我看到
3
家主要的供应商是
Intel
、三星和东芝,其中以
2.5
寸
U.2
尺寸为主,也有
HHHL
(半高半长)
PCIe
扩展卡。比较受欢迎的
Intel
认证过型号最多,除了
P4510
和
P4610
之外,还有使用
3D XPoint Memory
的
Optane P4800X
。
扩展阅读:《
SPDK
实战、
QoS
延时验证:
Intel Optane P4800X
评测
(5)
》
PCIe lane
信道支持是
AMD EPYC
的一个优势,这可能影响到多个
GPU
或者
NVMe SSD
连接时的带宽。由于还不确定
PowerEdgeR7525
的具体规格,我先以现有的
R7425
为例,看看它的
GPU
支持情况:
使用
GPU
优化的
TensorFlow-TensorRT5.0
进行
CNN
推理
INT8
计算
上图示意这台服务器安装了
6
个
NVIDIA Tesla T4 GPU
(都跑在
PCIe 3.0 x16
)
,如果是
Intel Xeon SP CPU
机型,几乎不可能把每
CPU
控制的
48 PCIe lane
(双
CPU
就是
96
)全给
x16
显卡用。而
AMD
则不同,单
/
双路服务器都能提供
128 PCIe lane
,具体在设计上侧重存储还是
GPU
就看情况了。
注
:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
进一步交流
技术
,
可以
加我的
QQ/
微信:
490834312
。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:
HL_Storage
长按二维码可直接识别关注
历史文章汇总
:
http://chuansong.me/account/huangliang_storage