[发明专利]一种硬盘故障的检测方法及装置有效
申请号: | 201310344369.X | 申请日: | 2013-08-08 |
公开(公告)号: | CN103455395A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 虞旭林 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 硬盘 故障 检测 方法 装置 | ||
技术领域
本发明涉及存储技术领域,尤其涉及一种硬盘故障的检测方法及装置。
背景技术
随着技术的发展,服务器上串行高级技术附件(Serial Advanced Technology Attachment,SATA)硬盘的单盘容量越来越大,单盘可以存储的硬盘的数据越来越多,而其故障率却并未有显著的下降,当前SATA硬盘的年故障率仍处在一个较高的水平。
针对SATA硬盘故障,可以分为不可预测性故障和可预测性故障,不可预测性故障是指硬盘由于使用不当等因素而导致的瞬间损坏,这种故障发生于瞬间,难以进行有效的监控和防范。可预测性故障是指由于硬盘的长期使用而导致的机械磨损或磁介质表面的退化,这个过程是一个长期的可监控的变化过程。
对于可预测性故障,目前有一套已经设定为工业标准的检测技术,即自我监测、分析及报告技术(Self-Monitoring Analysis and Reporting Technology,S.M.A.R.T),主要用于保障硬盘的数据安全,硬盘通过该技术可以自我监控滋生的温度、读写错误率、坏块数量以及错误日志等。目前对S.M.A.R.T.的检测可以通过标准的协议编写应用程序,在操作系统上层通过应用程序检查硬盘的S.M.A.R.T是否处于Failed状态来判断硬盘的健康状态。
由于不可预测性故障故障的不可预测性,因此只能在设备的设计和使用时按照硬盘的要求使用。但是还是不可避免的会发生这类故障,目前的故障处理方案上操作系统带内监控工具可以监控到硬盘的丢失,监控软件发现硬盘丢失之后会进行硬盘丢失告警,但是无法隔离这种故障。而这类不可预测性故障可能会导致硬盘变得很慢,同时也会存在不停的被硬盘控制器找到再丢失情况,造成系统的不稳定甚至导致系统业务的中断。
对于可预测故障要求必须在有操作系统的情况下进行检测,且需要在操作系统业务下安装硬盘状态监控软件,在大规模集群的服务器上,仅仅增加一个监控软件是不够的,还需要该监控软件定时上报硬盘的健康状态,在大规模部署服务器的数据中心,还需要考虑集中管理问题,因此增加了业务部署的复杂度。而且在标准的S.M.A.R.T技术中仅仅凭借Failed位的状态判断硬盘的好坏过于粗略,难以准确判断硬盘将要故障的趋势。
因此,如何简化硬盘状态的监控操作、检测硬盘的不可预测性故障已成为业界迫切需要解决的问题。
发明内容
有鉴于此,本发明提供一种硬盘故障的检测方法及装置,用以解决现有技术中存在着的硬盘状态监控操作复杂、不能检测到硬盘的不可预测性故障的技术问题。
第一方面,本发明提供了一种硬盘故障的检测方法,包括:
当从硬盘控制器检测到的硬盘组中的其中一个硬盘的第一故障信息与从外接于所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘;
重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
在第一种可能的实现方式中,所述确定所述硬盘发生第一类型的故障之后,所述方法还包括:
将所述硬盘从所述硬盘组中隔离。
结合第一方面,在第二种可能的实现方式中,所述方法还包括:
当所述第一故障信息与所述第一在位信息一致或当所述第二故障信息与所述第二在位信息一致时,确定所述硬盘发生第二类型的故障。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定所述硬盘发生第二类型的故障之后,所述方法还包括:
从所述硬盘控制器检测第二类型的故障监控值是否到达预警值;
当检测的结果为是时,发出硬盘故障预警。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述确定所述硬盘发生第二类型的故障之后,所述方法还包括:
当检测的结果为否时,测试所述硬盘组的工作温度是否高于预设温度;
当测试的结果为是时,调节所述硬盘组的风扇转速;
当测试的结果为否时,从所述硬盘控制器获取统计的所述硬盘的坏块数量;
当所述硬盘的坏块数量超出设定值时,发出所述硬盘故障预警。
第二方面,本发明提供了一种硬盘故障的检测装置,包括:
第一获取单元,用于从硬盘控制器获取硬盘组中的其中一个硬盘的第一故障信息,以及从外接于所述硬盘的硬盘在位检测电路获取所述硬盘的第一在位信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310344369.X/2.html,转载请声明来源钻瓜专利网。