专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

Facebook如何将硬盘性能损失由90%降低到2%

企业存储技术  · 公众号  ·  · 2018-03-30 08:00

正文

请到「今天看啥」查看全文


本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。


我发现OCP规范文档从0.x-1.0版本,可能是个踩坑——解决的过程。


上周OCP(开放计算项目)2018峰会照例在美国加州圣何塞举行,昨天终于看到部分视频和文档分享出来。链接如下:

http://opencompute.org/events/past-summits/

目前放出来的东西还不全,等到所有slide演讲资料都凑齐,我还是会打包做个网盘分享给大家,这一点不用着急:)

还记得去年OCP2017峰会后我写过几篇东西:

详解OCP高密度存储服务器:从Facebook身上学到什么?

OCPUS Summit 17会议资料开放下载(附网盘分享)

M.2SSD热插拔:Facebook和微软的两种方案

OCP曝光NVMe/SAS RAID卡、U.3混合背板

一年之后的今天来看,这几篇中还是第一个自我评价相对高些吧。当时写的是Facebook的4U 72盘位存储服务器Bryce Canyon,其中的章节/段落大致分为:

- 密度并不惊人,但强调灵活性

- 机箱内部模块化:计算、存储和I/O

- 尺寸、密度、可维护性与成本的取舍

- 机柜承重、散热设计浅谈

而今天继续围绕该系统的改进来讨论,具体的参考资料链接我也会在结尾处发出来。


Bryce Canyon机箱中3.5英寸HDD硬盘是竖插的,去年我列出过一张打开机箱盖的照片,这里就不再重复。

由于规格文档已经更新到1.0版本,上图比去年0.7版本中有些小变化,不过不算是重点。大家可以再留意下该系统的 散热风扇在机箱尾部末端 ,这与我们后面讨论的内容有关。

Facebook为什么要构建BryceCanyon机型呢?简单说就是无论用于温存储还是冷存储,其效率都比上一代产品更高。具体来说就是温存储版本提供了4倍计算性能、2倍内存容量,每硬盘能耗减少30%,并帮助达到削减50% CFM/W(立方英尺每瓦特,散热所需的气流量,有助于降低PuE)。

HDD性能目标:顺序降低最多5%、非连续不超10%

我们知道由于硬盘是机械部件,运行时的 振动达到一定程度就会影响到磁头定位 ——导致性能下降,严重的还会读写错误甚至影响寿命。在机箱/机架上的硬盘密度较大时,共振产生的性能影响更不可忽视。

早在《 这些硬盘参数你都懂吗?(上)-从案例引发的讨论 》、《 这些硬盘参数你都懂吗?(下)-监控选型与系统设计 》两篇中我就写过相关讨论,后来在《 硬盘在真实环境中的抗振能力对比 》进一步列出了实测数据。记得十几年前有一次参加Intel ESDC会议,当时拿一款插满盘的2U服务器来举例,受振动影响硬盘性能下降可达20%。

上面是Bryce Canyon提出的目标:顺序I/O时磁盘寻道定位的压力较小一些,允许性能降低最大不超过5%;非连续(随机)I/O条件下最大允许性能降低小于10%,平均不超过7%。下面我们来看看Facebook是怎么改进设计的。

散热风扇 是一个主要的 振动 来源,同时由之产生的 高频噪声 也会对硬盘有影响(大家还记得那篇朝硬盘大喊而导致出错的文章吗)。

这里修正了几点:

- 修改了风扇叶片角度 ,应该能使切割空气变得柔和;

- 增加了一个 蜂窝隔层 ,用来遮挡一部分噪声吧;

- 保护手指的设计改为金属线框,应该能增大气流通过率。

Facebook列出的测试结果非常可观:在100% PWM风扇全速的情况下(对应高温满负荷),最后一排HDD(也是最接近风扇的)在使用 之前老的风扇设计时,带宽性能下降多达39%-99% ;而做了3点 改变之后带来了巨大的改进 ,硬盘性能下降最多不超过2.3%。

怎么样,噪声和振动确实有点可怕吧?那么同类产品也可能存在类似的“严重”问题吗?不好说哦,也许有不负责任的厂商不是测试做的不够到位,就是赌散热风扇不会真的跑到100%。


Bryce Canyon系统散热部分改进的总结为:

- 次要的系统范围改变,来改进服务时间窗口;

- 对比设计改变前, 降低大约5% CFM/W的散热需求

- 风扇改变来降低在HDD上的噪声振动强度。

前面只讲了这第3点,还剩下2点接着讨论。

服务时间窗口:在线和离线维护目标

Bryce Canyon可在线更换的组件就是硬盘,这个过程需要保证机箱抽屉被完全从Rack机架中拉出时,系统运行正常并且性能下降可接受。

至于离线维护,我理解应该是指对人工操作的环境容忍度,以及便利性,包括温度、高度等。

上图我就不展开讨论了,从左到右服务时间由原始的3.2分钟,在采取一系列改良措施之后可以达到20分钟以上。

散热效率(CFM/W) 是如何提高的?

前面我们提到了风扇叶片的改变,上面的测试曲线反映出新风扇对风量、风压和耗电都没有负面影响。同时,噪声下降了3.7 dB(A)。

接下来这点改动,是 减少 了机箱中部(非硬盘区域)一处隔板的 散热开孔 ,这样能相对增加硬盘区域的风流量。测试结果表明,在30℃条件下系统 每瓦特功耗所需的散热气流从0.129 CFM(立方英尺)降低到0.122 CFM ,达成了减少5% CFM/W的目标。

运维喜欢这个:R.A.S.中的可服务性提高

当把机器从机柜中抽出维护时,通常会考虑设备本身的重量(如:198磅),而此时操作人本身的体重有没有可能也加上去呢?于是我们看到了上图右边针对性的改良设施。

这张图讲的应该是机箱与机柜之间的固定卡锁。

可服务性更新,上述ABCD 4点都是可用单手无工具操作的。

除了免工具,可维护性这部分的一个主要需求是结构上简单可靠。

当Bryce Canyon需要 更换背板时,不用将机箱从机柜中拆下来 ,而是可以在拔掉盘之后,像上图这样操作。许多年前,我和同行朋友常把这类设计看成是Barebone准系统与DIY攒机的差距。

今天先写到这里吧,请大家关注我后续分享的OCP2018全部资料下载。

参考资料

《BRYCECANYON System Improvements》

http://opencompute.org/assets/Uploads/Bryce-Canyon-System-Improvements-OCP-2018.pdf

Bryce Canyon OCP贡献

• Bryce Canyon system specification update

http://files.opencompute.org/oc/public.php?service=files&t=ff9615864f33731e50c21a33f2656dc8

• Electrical and mechanical design packagerelease from our partners

http://files.opencompute.org/oc/public.php?service=files&t=d0cc07497b6f85c337a73eaa6225d163

• OpenBMC Github release

https://github.com/facebook/openbmc


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流 技术 可以 加我的 QQ/ 微信: 490834312 。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号: HL_Storage


长按二维码可直接识别关注

历史文章汇总 http://chuansong.me/account/huangliang_storage







请到「今天看啥」查看全文