怎样预测硬盘的失效

本文主要介绍"如何预测硬盘的失效",希望能够解决您遇到有关问题,下面我们一起来看这篇 "如何预测硬盘的失效" 文章。

我们都知道,目前大部分的主流厂商都宣传自己可以实现HDD的故障预测,这样可以在HDD发生故障前,提前把数据预COPY出来,避免RAID重构带来的性能下降和数据丢失风险。

大家都知道,HDD的固件里面都有硬盘参数提供的一些数据,叫Self-Monitoring, Analysis, and Reporting Technology (SMART)。所有的阵列厂商都说,根据S.M.A.R.T参数来预测硬盘的失效,但没有一个厂商肯告诉你采用哪些参数,啥算法做出的预测。其实,这个预测算法才是真正的核心机密,对预测的准确性非常关键。硬盘没有坏你预测坏了,对客户和自己都是损失,因为需要提前更换硬盘。硬盘快坏了你预测不出来,给客户带来风险。这些预测,需要大量的使用去验证,而且不断完善预测算法。我们看到很多新进入存储的厂商也宣传具备预测硬盘失效的功能,但没有一定的积累是很难发挥价值的。

今天带大家了解一下美国的云存储服务商BACKBLAZE的研究成果。BACKBLAZE现在有4万块硬盘,100PB的数据,因此,他们的统计还是有一点说服力的。

BACKBLAZE不知道大家是否还有印象,西瓜哥以前分享过他们对各个硬盘厂商的坏盘率的统计数据。简单看,好像希捷的硬盘故障率最高,后来很多大V写了各种分析,希捷应该也做了紧急公关,因此,应该对希捷没有造成太大的影响,否则希捷Q3的增长不会这么快。

下面这个统计其实对大家还是有一些价值,第一年的硬盘故障率是5.1%,第二年是1.4%,第三年急升到11.8%。看来,云存储的服务商的硬盘3年后故障率老高了。当然,由于业务模型不同,企业应用应该没有恶化这么厉害。

SMART一共有200多个参数,由于没有一个标准,很多参数都是厂商定义的,因此,存储厂商必须和硬盘生产厂商深度合作,挖掘里面对自己有用的信息。

BACKBLAZE经过研究发现,200多个参数里面,只有下面5个参数和硬盘失效强相关。BACKBLAZE也只用这5个参数来预测硬盘是否失效。

比如这SMART 187,表示不可恢复的读错误个数(ECC也不行恢复)。这个值大于0,硬盘就快失效了。这个值越大,平均年故障率最高。

而SMART 12这个参数,代表硬盘电源开关的次数。BACKBLAZE发现,硬盘的电源开关次数和硬盘故障率没有线性关系,因此没有用这个参数来预测硬盘故障。

这个其实也给很多做冷存储的厂商吃了一颗定心丸,因为这些存储有休眠的功能,当某些机柜的硬盘不用的时候,可以让硬盘休眠,甚至可以关掉电源。原来还担心频繁开关电源对硬盘寿命产生影响,现在看好像关系不大。

今天分享这些知识,就是告诉大家,其实HDD的水很深。所有新进入存储的厂商,都会在HDD的使用上交过很多学费。因此,也给大家几个建议:

  1. 从可靠性考虑,存储大厂都要求必须购买自己的硬盘。因为不同硬盘厂商不同固件对SMART值的定义都不同。很多用户都不理解,为啥都是希捷硬盘,不能我自己去购买?了解这些知识,相信你就理解了这个行业的“潜规则”;

  2. 如果有可能,尽量选择出货量大的厂商。只有出货量大,才能和硬盘厂商进行深度的合作,拿到SMART数据的更多细节。并且出货量大,说明这些存储厂商的硬盘寿命预测功能已经得到市场的验证,其预测算法应该是比较有效的。

当然,如果用SDD,就没有这么麻烦的问题了,这也是SDD的优势,寿命预测更加准确。

关于 "如何预测硬盘的失效" 就介绍到这。希望大家多多支持编程宝库

本文主要介绍"Cloud Native指的是什么",希望能够解决您遇到有关问题,下面我们一起来看这篇 "Cloud Native指的是什么" 文章。Cloud Native(云原生)是以云架构为优先的应用 ...