专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

论SSD蹭热点的姿势:20ms连续掉电测试,还是100万次开关机?

企业存储技术  · 公众号  ·  · 2017-11-30 08:03

正文

请到「今天看啥」查看全文


本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。


说实话,我不是一个喜欢蹭热点的人,但看了兵哥的文章《 红黄蓝仓管大妈丢给存储界的难题:非法断电,你们硬盘扛得住吗? 》之后却有点不吐不快:)

兵哥在文中是这样写的:


出于对 SSD 知识的了解,我想到了这种操作对电容的考验。因为与 HDD 机械硬盘不同的是, SSD 通常需要在 DRAM/SRAM 缓存中存放一部分 映射表等元数据 ,而这些数据(无论多少)在掉电时会 依赖电容备份到 NAND 闪存上 。这个回写的保护过程一旦出现异常,就可能遇到当年某 I 品牌 SSD 那种“ 8MB 门”的故障。

当然,在兵哥面前我的 SSD 水平可能只算是小学生,所以这个问题他不会没想到。后来我看到兵哥也说了:“ 这样测试算是比较极端的测试方法了,主要目的是测试电容在没有充分充放电的情况下是否会出现故障,根据经验,这样情况非常容易出问题”

我还想起来小时候有次恶作剧,把楼道里的灯泡开关拨到中间的位置——恰好那灯就处于快速反复的亮灭切换中。故事的结局是第二天灯泡坏了——其实估计没用 24 小时,按那种开关频率钨丝能撑 1 2 个小时报废就不错。

同样测试硬盘难以承受,但这重要吗?

我忽然想到一个问题:上面所说的这类测试, 到底测的是高频连续掉电,还是通 / 断电循环(开关机)呢?

可能有朋友想问:“你这前后半句话说的不是一回事吗?”我这句确实说的有点绕,然而却牵涉到另外一个产品技术指标。不知您有没有这样计算过:

20ms 掉电一次,连续掉电 1000 次是多长时间?—— 20 秒。也就是说测 20 秒的循环断电,休息一分钟,然后按这个间隔继续。那么 24 小时内 SSD 的总通 / 断电周期是多少次呢? 108 万次!

正如兵哥所说,如果是按常规方式通断电而不是这么极端,没有机械部件的 SSD 承受 100 万次加电周期,对许多产品来说应该问题不大。而如果换成 HDD 硬盘呢?

我去查了自己之前写的两篇文章,里面竟然没有统计这个参数。倒不是自己不知道,而是当时受篇幅所限没有列进去。

这些硬盘参数你都懂吗?(上) - 从案例引发的讨论

这些硬盘参数你都懂吗?(下) - 监控选型与系统设计

上图截自某品牌 HDD 技术文档,有个 磁头加载 / 卸载周期 的指标,当前主流普通桌面硬盘、 NL-SATA/SAS 硬盘、监控硬盘大多是 60 万次 左右的水平,在 25 50% 相对湿度的环境条件下。

对于这一点,是在比较理想的情况下——正常开关机,磁头不在读写数据。笔记本硬盘由于节电模式会经常进入磁头停泊状态,会影响寿命吗?不难算出,如果按照 5 年的设计寿命,假设 365 天开机, 60 万次平均到每天 328 次磁头加载 / 卸载也够用了吧?

早期一些的磁头斜坡加载设计硬盘,加载 / 卸载的次数指标为 30 万。

如果是正好 在读写数据的时候,意外断电会使磁头接触盘片的概率增大,特别是当环境(机箱)振动超标的情况下 。此时达不到设计寿命等级很正常,这大概就是人们讨论的话题由来了。

100 万小时 MTBF 98% 无故障派单率

接下来,我想分享最近在技术工作中的一点心得,也是和产品可靠性相关的。

上周出差给同事做产品培训,其中提到一个系列的商用台式机通过了 100 万小时平均无故障运行时间认证。回想十几年前,我当时的同事,受人尊敬的孙老师主持过一次 10 万小时 MTBF PC 测试,那期间生产线同时跑着大量的机器。

平均无故障时间并不是说单品都可以用这么久,而是指 设计寿命(质保期)内大量样本的故障发生间隔时间 。客观来讲,更多代表设计水平而不见得总是真实反映每批次产品的情况。

另一个指标是 98% 的第一年无故障派单率,为了参照我对 MTBF 做了下列换算:

年平均故障率 AFR=1 / (MTBF / 365 / 24) 0.87 %

2% 的年实际故障率,比 0.87% 的设计水平还有些差距,但我觉得与 MTBF 测试的数值还是基本相符的。因为 PC 类产品的故障,许多还有些外在 / 用户人为的因素,比如说供电质量、灰尘 / 空气含硫超标、振动等等。

从细节处看笔记本质量改进

此外,我还看到一些关于笔记本的测试数据。


我们知道,像液晶屏的转轴是比较容易老化的部件。对于有些插拔测试为什么要人工而不是机器来做,业内人士的解释是:“ 人工测试才容易模拟出不同的插拔角度 ”。

这时,我想起以前有的笔记本上带 mini HDMI 接口 ,我曾经没用多久就接触不良,而后了解到许多朋友遇到同样问题。这个如果是机器插拔测试就发现不了。


上图也是很好的一个例子。左边的 无线网卡特别加了金属片来防止天线的脱落 ,中间只是用胶纸来辅助固定,右边甚至没有加固处理。

由于以前也拆过一些笔记本,包括自己的和朋友的,对这些细节会有深刻一些的体验。胶纸很容易撕裂,而使用几年之后胶带也很容易老化脱落。

大约有一半的时候我拆笔记本是为了清理灰尘,也“挽救”过一些出风口堵住无法正常工作的机器。曾经有位同事还给出个不用拆机的方法——用强力吸尘器从笔记本出风口直接把赃物吸出来,他还提醒我要保护键盘上的键帽不要被吸走。这时有多大气压估计大家能想象出来,如果内部有些组件固定不牢的话,也许再开机就会不正常了 当然我举的例子属于极端一点的情况。

这些加固金属架、防滚架对保持笔记本机身刚性、不变形至关重要。之前我曾用过一款入门级商用本,厚厚的工程塑料,但运行时端起来走动不动就死机了。当时有同事干脆建议我合上盖再移动:)


电源接口也是比较容易老化的部位。有的连接器直接焊在主板上,多次插拔——特别是难以完全避免的用力晃动后,如果出现脱焊的情况,整个主板需要拆下来维修(正常流程是返厂)。而左边机型是有个专门的电源接口转接件,与主板之间有连线,这样就不会因为外力而直接伤害到主板,降低了维护中不必要的时间和开销。

类似的例子还有许多,今天先写到这里。我想说的是, 真正质量优秀的产品肯定不是一日之功,精品系列都是在设计、制造、售后中积累了丰富的经验、不断总结改进而来的 。尽管 PC类 产品同质化相对高一些,而正是研发和质量控制体系上看似不明显的差距, 最终 影响了市场格局和产品线的兴衰。


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流 技术 可以 加我的 QQ/ 微信: 490834312 。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号: HL_Storage


长按二维码可直接识别关注

历史文章汇总 http://www.10tiao.com/author/index?authorId=691

点击下方“阅读原文”,查看更多历史文章
↓↓↓






请到「今天看啥」查看全文


推荐文章
房地产投资融资俱乐部  ·  房地产税已在路上?
7 年前
乐趣微生活  ·  美女套路太深,笑抽了!【NO5】
7 年前