本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧_huangliang,以便更好地与读者互动。
说实话,我不是一个喜欢蹭热点的人,但看了兵哥的文章《
红黄蓝仓管大妈丢给存储界的难题:非法断电,你们硬盘扛得住吗?
》之后却有点不吐不快:)
兵哥在文中是这样写的:
出于对
SSD
知识的了解,我想到了这种操作对电容的考验。因为与
HDD
机械硬盘不同的是,
SSD
通常需要在
DRAM/SRAM
缓存中存放一部分
映射表等元数据
,而这些数据(无论多少)在掉电时会
依赖电容备份到
NAND
闪存上
。这个回写的保护过程一旦出现异常,就可能遇到当年某
I
品牌
SSD
那种“
8MB
门”的故障。
当然,在兵哥面前我的
SSD
水平可能只算是小学生,所以这个问题他不会没想到。后来我看到兵哥也说了:“
这样测试算是比较极端的测试方法了,主要目的是测试电容在没有充分充放电的情况下是否会出现故障,根据经验,这样情况非常容易出问题”
。
我还想起来小时候有次恶作剧,把楼道里的灯泡开关拨到中间的位置——恰好那灯就处于快速反复的亮灭切换中。故事的结局是第二天灯泡坏了——其实估计没用
24
小时,按那种开关频率钨丝能撑
1
、
2
个小时报废就不错。
同样测试硬盘难以承受,但这重要吗?
我忽然想到一个问题:上面所说的这类测试,
到底测的是高频连续掉电,还是通
/
断电循环(开关机)呢?
可能有朋友想问:“你这前后半句话说的不是一回事吗?”我这句确实说的有点绕,然而却牵涉到另外一个产品技术指标。不知您有没有这样计算过:
每
20ms
掉电一次,连续掉电
1000
次是多长时间?——
20
秒。也就是说测
20
秒的循环断电,休息一分钟,然后按这个间隔继续。那么
24
小时内
SSD
的总通
/
断电周期是多少次呢?
108
万次!
正如兵哥所说,如果是按常规方式通断电而不是这么极端,没有机械部件的
SSD
承受
100
万次加电周期,对许多产品来说应该问题不大。而如果换成
HDD
硬盘呢?
我去查了自己之前写的两篇文章,里面竟然没有统计这个参数。倒不是自己不知道,而是当时受篇幅所限没有列进去。
《
这些硬盘参数你都懂吗?(上)
-
从案例引发的讨论
》
《
这些硬盘参数你都懂吗?(下)
-
监控选型与系统设计
》
上图截自某品牌
HDD
技术文档,有个
磁头加载
/
卸载周期
的指标,当前主流普通桌面硬盘、
NL-SATA/SAS
硬盘、监控硬盘大多是
60
万次
左右的水平,在
25
℃
、
50%
相对湿度的环境条件下。
对于这一点,是在比较理想的情况下——正常开关机,磁头不在读写数据。笔记本硬盘由于节电模式会经常进入磁头停泊状态,会影响寿命吗?不难算出,如果按照
5
年的设计寿命,假设
365
天开机,
60
万次平均到每天
328
次磁头加载
/
卸载也够用了吧?
早期一些的磁头斜坡加载设计硬盘,加载
/
卸载的次数指标为
30
万。
如果是正好
在读写数据的时候,意外断电会使磁头接触盘片的概率增大,特别是当环境(机箱)振动超标的情况下
。此时达不到设计寿命等级很正常,这大概就是人们讨论的话题由来了。
100
万小时
MTBF
与
98%
无故障派单率
接下来,我想分享最近在技术工作中的一点心得,也是和产品可靠性相关的。
上周出差给同事做产品培训,其中提到一个系列的商用台式机通过了
100
万小时平均无故障运行时间认证。回想十几年前,我当时的同事,受人尊敬的孙老师主持过一次
10
万小时
MTBF
的
PC
测试,那期间生产线同时跑着大量的机器。
平均无故障时间并不是说单品都可以用这么久,而是指
设计寿命(质保期)内大量样本的故障发生间隔时间
。客观来讲,更多代表设计水平而不见得总是真实反映每批次产品的情况。
另一个指标是
98%
的第一年无故障派单率,为了参照我对
MTBF
做了下列换算:
年平均故障率
AFR=1 / (MTBF / 365 / 24)
≈
0.87 %
2%
的年实际故障率,比
0.87%
的设计水平还有些差距,但我觉得与
MTBF
测试的数值还是基本相符的。因为
PC
类产品的故障,许多还有些外在
/
用户人为的因素,比如说供电质量、灰尘
/
空气含硫超标、振动等等。
从细节处看笔记本质量改进
此外,我还看到一些关于笔记本的测试数据。
我们知道,像液晶屏的转轴是比较容易老化的部件。对于有些插拔测试为什么要人工而不是机器来做,业内人士的解释是:“
人工测试才容易模拟出不同的插拔角度
”。
这时,我想起以前有的笔记本上带
mini HDMI
接口
,我曾经没用多久就接触不良,而后了解到许多朋友遇到同样问题。这个如果是机器插拔测试就发现不了。
上图也是很好的一个例子。左边的
无线网卡特别加了金属片来防止天线的脱落
,中间只是用胶纸来辅助固定,右边甚至没有加固处理。
由于以前也拆过一些笔记本,包括自己的和朋友的,对这些细节会有深刻一些的体验。胶纸很容易撕裂,而使用几年之后胶带也很容易老化脱落。
大约有一半的时候我拆笔记本是为了清理灰尘,也“挽救”过一些出风口堵住无法正常工作的机器。曾经有位同事还给出个不用拆机的方法——用强力吸尘器从笔记本出风口直接把赃物吸出来,他还提醒我要保护键盘上的键帽不要被吸走。这时有多大气压估计大家能想象出来,如果内部有些组件固定不牢的话,也许再开机就会不正常了
…
当然我举的例子属于极端一点的情况。
这些加固金属架、防滚架对保持笔记本机身刚性、不变形至关重要。之前我曾用过一款入门级商用本,厚厚的工程塑料,但运行时端起来走动不动就死机了。当时有同事干脆建议我合上盖再移动:)
电源接口也是比较容易老化的部位。有的连接器直接焊在主板上,多次插拔——特别是难以完全避免的用力晃动后,如果出现脱焊的情况,整个主板需要拆下来维修(正常流程是返厂)。而左边机型是有个专门的电源接口转接件,与主板之间有连线,这样就不会因为外力而直接伤害到主板,降低了维护中不必要的时间和开销。
类似的例子还有许多,今天先写到这里。我想说的是,
真正质量优秀的产品肯定不是一日之功,精品系列都是在设计、制造、售后中积累了丰富的经验、不断总结改进而来的
。尽管
PC类
产品同质化相对高一些,而正是研发和质量控制体系上看似不明显的差距,
最终
影响了市场格局和产品线的兴衰。
注
:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
进一步交流
技术
,
可以
加我的
QQ/
微信:
490834312
。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:
HL_Storage
长按二维码可直接识别关注
历史文章汇总
:
http://www.10tiao.com/author/index?authorId=691