本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。
我发现OCP规范文档从0.x-1.0版本,可能是个踩坑——解决的过程。
上周OCP(开放计算项目)2018峰会照例在美国加州圣何塞举行,昨天终于看到部分视频和文档分享出来。链接如下:
http://opencompute.org/events/past-summits/
目前放出来的东西还不全,等到所有slide演讲资料都凑齐,我还是会打包做个网盘分享给大家,这一点不用着急:)
还记得去年OCP2017峰会后我写过几篇东西:
《
详解OCP高密度存储服务器:从Facebook身上学到什么?
》
《
OCPUS Summit 17会议资料开放下载(附网盘分享)
》
《
M.2SSD热插拔:Facebook和微软的两种方案
》
《
OCP曝光NVMe/SAS RAID卡、U.3混合背板
》
一年之后的今天来看,这几篇中还是第一个自我评价相对高些吧。当时写的是Facebook的4U 72盘位存储服务器Bryce Canyon,其中的章节/段落大致分为:
-
密度并不惊人,但强调灵活性
-
机箱内部模块化:计算、存储和I/O
-
尺寸、密度、可维护性与成本的取舍
-
机柜承重、散热设计浅谈
而今天继续围绕该系统的改进来讨论,具体的参考资料链接我也会在结尾处发出来。
Bryce Canyon机箱中3.5英寸HDD硬盘是竖插的,去年我列出过一张打开机箱盖的照片,这里就不再重复。
由于规格文档已经更新到1.0版本,上图比去年0.7版本中有些小变化,不过不算是重点。大家可以再留意下该系统的
散热风扇在机箱尾部末端
,这与我们后面讨论的内容有关。
Facebook为什么要构建BryceCanyon机型呢?简单说就是无论用于温存储还是冷存储,其效率都比上一代产品更高。具体来说就是温存储版本提供了4倍计算性能、2倍内存容量,每硬盘能耗减少30%,并帮助达到削减50% CFM/W(立方英尺每瓦特,散热所需的气流量,有助于降低PuE)。
HDD性能目标:顺序降低最多5%、非连续不超10%
我们知道由于硬盘是机械部件,运行时的
振动达到一定程度就会影响到磁头定位
——导致性能下降,严重的还会读写错误甚至影响寿命。在机箱/机架上的硬盘密度较大时,共振产生的性能影响更不可忽视。
早在《
这些硬盘参数你都懂吗?(上)-从案例引发的讨论
》、《
这些硬盘参数你都懂吗?(下)-监控选型与系统设计
》两篇中我就写过相关讨论,后来在《
硬盘在真实环境中的抗振能力对比
》进一步列出了实测数据。记得十几年前有一次参加Intel ESDC会议,当时拿一款插满盘的2U服务器来举例,受振动影响硬盘性能下降可达20%。
上面是Bryce Canyon提出的目标:顺序I/O时磁盘寻道定位的压力较小一些,允许性能降低最大不超过5%;非连续(随机)I/O条件下最大允许性能降低小于10%,平均不超过7%。下面我们来看看Facebook是怎么改进设计的。
散热风扇
是一个主要的
振动
来源,同时由之产生的
高频噪声
也会对硬盘有影响(大家还记得那篇朝硬盘大喊而导致出错的文章吗)。
这里修正了几点:
-
修改了风扇叶片角度
,应该能使切割空气变得柔和;
-
增加了一个
蜂窝隔层
,用来遮挡一部分噪声吧;
-
保护手指的设计改为金属线框,应该能增大气流通过率。
Facebook列出的测试结果非常可观:在100% PWM风扇全速的情况下(对应高温满负荷),最后一排HDD(也是最接近风扇的)在使用
之前老的风扇设计时,带宽性能下降多达39%-99%
;而做了3点
改变之后带来了巨大的改进
,硬盘性能下降最多不超过2.3%。
怎么样,噪声和振动确实有点可怕吧?那么同类产品也可能存在类似的“严重”问题吗?不好说哦,也许有不负责任的厂商不是测试做的不够到位,就是赌散热风扇不会真的跑到100%。
Bryce Canyon系统散热部分改进的总结为:
-
次要的系统范围改变,来改进服务时间窗口;
-
对比设计改变前,
降低大约5% CFM/W的散热需求
;
-
风扇改变来降低在HDD上的噪声振动强度。
前面只讲了这第3点,还剩下2点接着讨论。
服务时间窗口:在线和离线维护目标
Bryce Canyon可在线更换的组件就是硬盘,这个过程需要保证机箱抽屉被完全从Rack机架中拉出时,系统运行正常并且性能下降可接受。
至于离线维护,我理解应该是指对人工操作的环境容忍度,以及便利性,包括温度、高度等。
上图我就不展开讨论了,从左到右服务时间由原始的3.2分钟,在采取一系列改良措施之后可以达到20分钟以上。
散热效率(CFM/W) 是如何提高的?
前面我们提到了风扇叶片的改变,上面的测试曲线反映出新风扇对风量、风压和耗电都没有负面影响。同时,噪声下降了3.7 dB(A)。
接下来这点改动,是
减少
了机箱中部(非硬盘区域)一处隔板的
散热开孔
,这样能相对增加硬盘区域的风流量。测试结果表明,在30℃条件下系统
每瓦特功耗所需的散热气流从0.129 CFM(立方英尺)降低到0.122 CFM
,达成了减少5% CFM/W的目标。
运维喜欢这个:R.A.S.中的可服务性提高
当把机器从机柜中抽出维护时,通常会考虑设备本身的重量(如:198磅),而此时操作人本身的体重有没有可能也加上去呢?于是我们看到了上图右边针对性的改良设施。
这张图讲的应该是机箱与机柜之间的固定卡锁。
可服务性更新,上述ABCD 4点都是可用单手无工具操作的。
除了免工具,可维护性这部分的一个主要需求是结构上简单可靠。
当Bryce Canyon需要
更换背板时,不用将机箱从机柜中拆下来
,而是可以在拔掉盘之后,像上图这样操作。许多年前,我和同行朋友常把这类设计看成是Barebone准系统与DIY攒机的差距。
今天先写到这里吧,请大家关注我后续分享的OCP2018全部资料下载。
参考资料
《BRYCECANYON System Improvements》
http://opencompute.org/assets/Uploads/Bryce-Canyon-System-Improvements-OCP-2018.pdf
Bryce Canyon OCP贡献
• Bryce Canyon system specification update
⎻
http://files.opencompute.org/oc/public.php?service=files&t=ff9615864f33731e50c21a33f2656dc8
• Electrical and mechanical design packagerelease from our partners
⎻
http://files.opencompute.org/oc/public.php?service=files&t=d0cc07497b6f85c337a73eaa6225d163
• OpenBMC Github release
⎻
https://github.com/facebook/openbmc
注
:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
进一步交流
技术
,
可以
加我的
QQ/
微信:
490834312
。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:
HL_Storage
长按二维码可直接识别关注
历史文章汇总
:
http://chuansong.me/account/huangliang_storage