专栏名称: 大话存储
由存储系统架构师、《大话存储》系列图书作者冬瓜哥创立。分享业界逼格甚高的存储和计算机系统底层知识,皆为原创。存储系统底层技术、机理、设计、思路分享,绝不忽悠。想变得比别人逼格高一点,就来阅读本公众号的文章。
目录
相关文章推荐
51好读  ›  专栏  ›  大话存储

从SAS过渡到NVMe岂止仅换个底盘

大话存储  · 公众号  ·  · 2018-12-13 10:43

正文

请到「今天看啥」查看全文


广告:冬瓜哥新作 《大话计算机——计算机系统低层架构原理极限剖析》 将于8月份出版,详细内容点击链接。


从SAS过渡到NVMe,是不是更换个底盘就完了?这里面事其实挺复杂的。


本文组织:

1. PowerMax 简介

2. 说说从 SAS NVMe 的过度



1
PowerMax 简介

2018 5 1 日,戴尔 EMC DellTechnologies World 宣布了最新的计算和存储产品方案。戴尔宣布了基于全闪存架构的 PowerMax 存储系统,该系统将全面取代之前的 VMAX 。这意味着后续 DELLEMC 的高端存储系统将全部是全闪存架构。

PowerMax 存储阵列可以被视为历史悠久的 VMAX 产品家族的继任者,该产品家族的起源可追溯到 1990 年,而存储巨头 EMC 公司在 2016 年推出了首个全闪存 VMAX ,而这是 EMC 公司在被 DELL 公司收购之前所推出的。

PowerMax 的命名与 DELLEMC 服务器产品线的 PowerEdge 相呼应,形成统一的命名风格。 PowerMax 内部的控制器也被命名为 PowerBrick (之前是 V-Brick ),操作系统命名为 PowerMax 操作系统(之前为 HyperMatrix 操作系统)。

PowerBrick

之前 VMAX 的全闪存版本为 VMAX-AF ,而 PowerMax 相比 VMAX 的区别在于:

1 、后端由 SAS 体系结构全面替换为基于 PCIE NVMe 体系结构,性能大幅提高。

2 、引入机器学习来辅助性能分析、故障检测和日常运维,彰显智能。

3 、增加了对重删( Deduplication )的支持,存储空间使用效率提升。

DELLEMC 本次发布了两款 PowerMax 型号,分别为 2000 8000 。其中 2000 可视为升级版的 VMAX250F 8000 为升级版 VMAX 950F PowerMax 使用 SFF8639 连接器的双端口 NVMe SSD ,并同时支持 NVMe over Fabrics(NVMe-oF) 协议。

控制器节点 Brick 使用的 CPU 也是沿着 Intel 产品发展路线从 VMAX 250F/950F Broadwells 升级到 Xeon E526xx v4 ,尽管最大 Core 576 没有发生变化,但 IOPS 950F 670 万上升到 8000 1000 万。

PowerMax 2000 能够提供高达 170 万的 IOPs 1PB 容量,可以扩展到 2 PowerBricks PowerMax8000 能够传输高达 1000 万的 IOPs 4PB 容量,可扩展到 8 PowerBricks

新增加的 Inline 重复数据删除功能,可以与现有的 Inline 压缩一起使用,可高达 5:1 的数据缩减率,支持灵活开关。最大有效容量与 250F 950F 的最大 (1PB 4PB) 保持一致,在 10U PowerBrick 中支持从 13TB 开始起配。 PowerMax 的机架密度是 VMAX 2 倍,能耗降低了 40%


PowerMax 的运行软件将有两个版本组成 : Essentials Pro Essentials 版本提供了 SnapVX deduplication QoS 等特性,而 Pro 版本提供远程复制、 PowerPath SRM


PowerMax NVMe SCM 的支持将极大地减少阵列的延迟。使用 NVMe 闪存驱动器的 PowerMax 的响应时间比之前的 VMAX 减低 25% ,而端到端 NVMe SCM 的组合将使 PowerMax 的响应时间比 VMAX 50%


PowerMax 操作系统使用机器学习、预测分析和模式识别等技术使得存储系统更加智能和自动化。在机器学习方面, PowerMax 操作系统可从设备上收集的性能和相关数据 ( 包括阵列的实时数据 ) PowerMax 可以决定哪些数据或数据块可以存储在哪些存储层上,它通过利用超过 4000 万套部署数据集 ( 存储 ) IO 读、写、 Get Put 等操作中变得更加智能。



2
说说 SAS NVMe 的过度


PowerMax 这次后端从 SAS 完全过渡到 PCIE ,这是个非常大的变化。这个过度并非升级,而是完全抛弃换新的底盘,基于这个底盘所构建的上层软硬件形态也需要跟着做很大的变化。这也意味着之前在 SAS 方面的积累几乎作废。但是有一点可以保留,那就是 Enclosure Management 部分可以重用之前的框架。

如上图所示,在 SAS 体系下, SAS Controller 将整个 SAS 后端的一切都隐藏了起来, Host 端看得到的只有 SAS Controller 的地址空间,通过上层驱动一层层识别到后端的 SAS 设备。这种松耦合方式灵活,方便运维。比如 SAS 热插拔等处理都非常方便。但是最大一个劣势,就是延迟相比NVMe盘而言太高,因为经过了SAS Controller、SAS Expander两个器件。 然而过渡到 PCIE 之后,由于没有了 HBA Controller ,所有 PCIE 设备都被直接暴露在地址空间中,对NVMe设备的控制可以直接通过访存方式完成,而并不需要通过HBA Controller中转,所以性能得到巨大的释放和发挥,尤其是时延方面的降低,更符合互联网时代的快速响应的诉求。


在由NVMe设备、PCIE Switch组成的这个新底盘上,还有很多基础功能、高级功能有待开发完善,发展潜力很大。比如,已经解决的有热插拔,包括planned hot remove以及suprisingly hot remove。尚未解决或者说标准化的功能有LED灯控制,这方面NVMe标准正在快速推出,比如NVMe Management Interface(NVMe MI)的标准化已经成型,PCIE Switch可以像以往SAS Expander一样对NVMe的JBOF(Just a bunch of FLash)最对应的Enclosure Mangement。


上层软件方面,为了充分发挥NVMe硬盘的性能,OS内核的协议栈可能需要全盘优化甚至直接替换,或者,直接砍掉!将所有I/O协议栈做到用户态去,每次I/O调用不再需要进入到内核系统调用流程,进一步降低时延。


前端访问方面,提供SCSI协议之外的全新低时延访问协议:NVMe over Fabric,将整个系统路径的时延再次降低。


综上,PCIE生态系统已经成熟,以Microchip(收购了Microsemi,Microsemi收购了PMC)为代表的厂商已经推出了第二代PCIE3.0 Switch,马上就要推出PCIE 4.0 Switch,通道数量达到上百个。趋于成熟的底层生态必将让基于NVMe的全闪存存储系统在后续的产品规划、发展路径中如鱼得水。


然而,SAS其实也没闲着。 SAS4 x4 PHY 的速度已经可以达到单向 96Gb/s 而且 SAS4 相比 SAS3 的一个很大提升则是支持基于时分复用的链路复用和全双工(目前仅Microchip/Microsemi 的 SAS4 产品支持)。SAS or PCIE?or both?冬瓜哥会持续关注相关底层产业生态发展,为大家持续提供消息。

大话存储

大话计算机







请到「今天看啥」查看全文