磁盘驱动器供应商告诉我们,这些年来,有超过一半因为质保维修返厂的驱动器归类到NPF当中——意思是未发现问题。作为一名IT专业人士,我认为这一现象的真正原因,就像困扰许多服务台的那样,位于“键盘和操作人员”之间。LSI的Rob Ober最近的一篇博客,像一道新鲜的阳光照在了“错误的驱动器故障”这一难题上,并使我思考为什么这类问题依旧存在。
Ober指出,错误的故障是一个主要问题,不仅仅是从Fry's和Newegg(新蛋)购买裸盘的那些爱好者,还有主要数据中心的运营商。数据中心运营商像你我一样,当遇到驱动器故障就会有实质性的成本开销。举个例子:
- 由于RAID系统重建差不多4TB的数据到一个热备用驱动器上,系统性能下降经常会持续好几天。在分布式环境中使用向外扩展(scale-out)存储,由于重建数据需要合并多个存储节点,还会影响到网络流量。
- 有人不得不去更换驱动器
因为驱动器有敏感的企业数据,它必须被保密处理或者销毁。如果你没有足够大到拥有一个协议——你的存储供应商会按照你的要求来更换失败的驱动器,这可能意味着你还需要为不能返还的驱动器支付成本。
问题是,如今的硬盘驱动器由带有固件的内部微控制器来运行。就像你的PC或者Mac,该软件偶尔会瘫痪或者处理器冻结。驱动器遇到一系列没有完成的在开发过程中调试的请求和状态,而它的处理器停止响应来自主机或者RAID控制器的命令。
如果主机或者RAID控制器报告这样的一个驱动器失败,那么驱动器会在脱离主机和在别处测试时重新工作良好。(我们都知道,关闭和打开电源可以解决很多计算机的问题)。事实上,研究表明可以容忍这种类型错误的故障驱动器作为可靠的,只要在它们重置后,便可以当做新的驱动器出厂。
实际上Ober先生找到了一位不愿透露姓名的数据中心运营者,与他分享其驱动器故障统计数字。这个数据中心尽管比谷歌或者Facebook的标准小,但也拥有相当巨大的20多万台服务器。
他们发现:
- 他们超过30%的SAS驱动器故障是错误的,加起来每天10-15个,或者说是千分之一的年度错误故障率。
- 直接与服务器主板相连的SATA驱动器,根据驱动器供应商的长期报告它有更高的将近50%的错误故障率,错误的故障率为惊人的每年1%。
一些厂商正在解决这一问题。五年前,Xiotech和Atrato谈到过“自愈”型磁盘阵列,在磁盘停止响应指令的时候它会执行修复任务而不是立即开始RAID重建。Xiotech与希捷(Seagate)紧密合作,甚至可以继续运行带有一个表面损坏的驱动器,或者映射访问绕过它来(将部分)磁头失效。当然,修复过程当中的第一步是在磁盘上执行一个硬重置。
由于行业的变幻无常,人们的注意力转到了闪存上,自愈型阵列不再时尚了。Atrato已经消失,而Xiotech——现在重新命名的X-IO已经显得褪色,有所关联的是,其最后的独立竞争对手Compellent、3Par甚至Nexsan都被收购了。
由于磁盘驱动器是一个双巨头垄断的市场,它的销售量大,产品利润低。我没望希捷还是西部数据(Western Digital)建立一个可以检测到错误故障并自我重置的高度冗余的电路板到驱动器中。但是有几样东西,包括LSI在内的业界厂商可以做到。
像LSI一样的SAS控制器供应商,可以构建错误故障检测和复位功能到控制器中。当驱动器响应失败时,控制器会在RAID开始重建之前给出一个快速反冲。这在SATA驱动器上比较难,因为它缺少一些必要的连接。但是控制SATA规范的人们,在接下来的几年可能在6-12Gbps升级中增加一个硬件复位功能。简单点儿说,阵列供应商可以增加一个切断到单独驱动器的电源来强制复位的功能。
无论你如何切断它,1%的AFR是不可接受的。这个行业应该致力于真正的解决方案,而不只是更快的重建(rebuild)。 |