广告:冬瓜哥新作
《大话计算机——计算机系统低层架构原理极限剖析》
将于8月份出版,详细内容点击链接。
从SAS过渡到NVMe,是不是更换个底盘就完了?这里面事其实挺复杂的。
本文组织:
1.
PowerMax
简介
2.
说说从
SAS
到
NVMe
的过度
2018
年
5
月
1
日,戴尔
EMC
在
DellTechnologies World
宣布了最新的计算和存储产品方案。戴尔宣布了基于全闪存架构的
PowerMax
存储系统,该系统将全面取代之前的
VMAX
。这意味着后续
DELLEMC
的高端存储系统将全部是全闪存架构。
PowerMax
存储阵列可以被视为历史悠久的
VMAX
产品家族的继任者,该产品家族的起源可追溯到
1990
年,而存储巨头
EMC
公司在
2016
年推出了首个全闪存
VMAX
,而这是
EMC
公司在被
DELL
公司收购之前所推出的。
PowerMax
的命名与
DELLEMC
服务器产品线的
PowerEdge
相呼应,形成统一的命名风格。
PowerMax
内部的控制器也被命名为
PowerBrick
(之前是
V-Brick
),操作系统命名为
PowerMax
操作系统(之前为
HyperMatrix
操作系统)。
PowerBrick
之前
VMAX
的全闪存版本为
VMAX-AF
,而
PowerMax
相比
VMAX
的区别在于:
1
、后端由
SAS
体系结构全面替换为基于
PCIE
的
NVMe
体系结构,性能大幅提高。
2
、引入机器学习来辅助性能分析、故障检测和日常运维,彰显智能。
3
、增加了对重删(
Deduplication
)的支持,存储空间使用效率提升。
DELLEMC
本次发布了两款
PowerMax
型号,分别为
2000
和
8000
。其中
2000
可视为升级版的
VMAX250F
,
8000
为升级版
VMAX 950F
。
PowerMax
使用
SFF8639
连接器的双端口
NVMe SSD
,并同时支持
NVMe over Fabrics(NVMe-oF)
协议。
控制器节点
Brick
使用的
CPU
也是沿着
Intel
产品发展路线从
VMAX 250F/950F
的
Broadwells
升级到
Xeon E526xx v4
,尽管最大
Core
数
576
没有发生变化,但
IOPS
从
950F
的
670
万上升到
8000
的
1000
万。
PowerMax 2000
能够提供高达
170
万的
IOPs
和
1PB
容量,可以扩展到
2
个
PowerBricks
。
PowerMax8000
能够传输高达
1000
万的
IOPs
和
4PB
容量,可扩展到
8
个
PowerBricks
。
新增加的
Inline
重复数据删除功能,可以与现有的
Inline
压缩一起使用,可高达
5:1
的数据缩减率,支持灵活开关。最大有效容量与
250F
和
950F
的最大
(1PB
和
4PB)
保持一致,在
10U
的
PowerBrick
中支持从
13TB
开始起配。
PowerMax
的机架密度是
VMAX
的
2
倍,能耗降低了
40%
。
PowerMax
的运行软件将有两个版本组成
:
即
Essentials
和
Pro
。
Essentials
版本提供了
SnapVX
,
deduplication
和
QoS
等特性,而
Pro
版本提供远程复制、
PowerPath
和
SRM
。
PowerMax
对
NVMe SCM
的支持将极大地减少阵列的延迟。使用
NVMe
闪存驱动器的
PowerMax
的响应时间比之前的
VMAX
减低
25%
,而端到端
NVMe
和
SCM
的组合将使
PowerMax
的响应时间比
VMAX
快
50%
。
PowerMax
操作系统使用机器学习、预测分析和模式识别等技术使得存储系统更加智能和自动化。在机器学习方面,
PowerMax
操作系统可从设备上收集的性能和相关数据
(
包括阵列的实时数据
)
,
PowerMax
可以决定哪些数据或数据块可以存储在哪些存储层上,它通过利用超过
4000
万套部署数据集
(
存储
)
和
IO
读、写、
Get
和
Put
等操作中变得更加智能。
PowerMax
这次后端从
SAS
完全过渡到
PCIE
,这是个非常大的变化。这个过度并非升级,而是完全抛弃换新的底盘,基于这个底盘所构建的上层软硬件形态也需要跟着做很大的变化。这也意味着之前在
SAS
方面的积累几乎作废。但是有一点可以保留,那就是
Enclosure Management
部分可以重用之前的框架。
如上图所示,在
SAS
体系下,
SAS Controller
将整个
SAS
后端的一切都隐藏了起来,
Host
端看得到的只有
SAS Controller
的地址空间,通过上层驱动一层层识别到后端的
SAS
设备。这种松耦合方式灵活,方便运维。比如
SAS
热插拔等处理都非常方便。但是最大一个劣势,就是延迟相比NVMe盘而言太高,因为经过了SAS Controller、SAS Expander两个器件。
然而过渡到
PCIE
之后,由于没有了
HBA Controller
,所有
PCIE
设备都被直接暴露在地址空间中,对NVMe设备的控制可以直接通过访存方式完成,而并不需要通过HBA Controller中转,所以性能得到巨大的释放和发挥,尤其是时延方面的降低,更符合互联网时代的快速响应的诉求。
在由NVMe设备、PCIE Switch组成的这个新底盘上,还有很多基础功能、高级功能有待开发完善,发展潜力很大。比如,已经解决的有热插拔,包括planned hot remove以及suprisingly hot remove。尚未解决或者说标准化的功能有LED灯控制,这方面NVMe标准正在快速推出,比如NVMe Management Interface(NVMe MI)的标准化已经成型,PCIE Switch可以像以往SAS Expander一样对NVMe的JBOF(Just a bunch of FLash)最对应的Enclosure Mangement。
上层软件方面,为了充分发挥NVMe硬盘的性能,OS内核的协议栈可能需要全盘优化甚至直接替换,或者,直接砍掉!将所有I/O协议栈做到用户态去,每次I/O调用不再需要进入到内核系统调用流程,进一步降低时延。
前端访问方面,提供SCSI协议之外的全新低时延访问协议:NVMe over Fabric,将整个系统路径的时延再次降低。
综上,PCIE生态系统已经成熟,以Microchip(收购了Microsemi,Microsemi收购了PMC)为代表的厂商已经推出了第二代PCIE3.0 Switch,马上就要推出PCIE 4.0 Switch,通道数量达到上百个。趋于成熟的底层生态必将让基于NVMe的全闪存存储系统在后续的产品规划、发展路径中如鱼得水。
然而,SAS其实也没闲着。
SAS4
下
x4 PHY
的速度已经可以达到单向
96Gb/s
,
而且
SAS4
相比
SAS3
的一个很大提升则是支持基于时分复用的链路复用和全双工(目前仅Microchip/Microsemi 的
SAS4
产品支持)。SAS or PCIE?or both?冬瓜哥会持续关注相关底层产业生态发展,为大家持续提供消息。
大话存储
大话计算机