[发明专利]一种磁盘故障预测方法和系统有效
申请号: | 202010471262.1 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111752775B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 王团结;梁鑫辉;曹琪 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 朱晓熹 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 磁盘 故障 预测 方法 系统 | ||
本发明公开了一种磁盘故障预测方法和系统,其中,磁盘故障预测方法包括:使用SMART技术对磁盘数据集进行采样,标记得到与故障磁盘对应的正样本以及与正常磁盘对应的负样本;按照预设时序提取每个正样本和负样本的SMART特征,得到每个正样本和负样本的时序特征;在极致梯度提升XGBoost算法中导入自定义损失函数,得到改进型XGBoost算法;其中,在自定义损失函数中正样本误分类造成的损失大于负样本;以时序特征作为输入、且以正样本和负样本作为输出,导入至改进型XGBoost算法,以使改进型XGBoost算法对磁盘数据集进行机器学习,得到磁盘故障预测模型。本发明的技术方案能解决现有技术中与故障磁盘对应的正样本难以预测,故障磁盘的预测准确率不高的问题。
技术领域
本发明涉及智能运维技术领域,尤其涉及一种磁盘故障预测方法和系统。
背景技术
在大规模数据中心,硬盘的使用规模已达百万级别。盘类故障问题频发,会导致存储系统甚至整个IT基础设施稳定性和可靠性的下降,甚至对业务服务等级协议造成负面影响。另外,磁盘也是数据中心故障率最高的部件,不管是磁盘读写速度异常或是数据丢失对于任何企业来说后果都十分严重。如果能在磁盘发生故障前提前预测到磁盘故障,预先对可能出现的异常磁盘及时备份数据或进行替换,将极大减少因磁盘故障而造成的损失,对存储系统的运营带来极大便利,并有效提高数据中心可靠性。
SMART(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术),是一种自动的硬盘状态检测与预警系统和规范。通过预设在硬盘硬件内的检测指令,对硬盘的硬件(如磁头、盘片、马达和电路)的运行情况进行监控。传统的故障预测方法是比对SMART监控得到的样本特征值和厂商所设定的预设安全值,若监控得到的样本特征值即将或已超出预设安全值的安全范围,就通过主机的监控硬件或软件自动向用户做出警告并启动数据恢复。然而,上述故障预测方法会引发大量磁盘IO进程,影响用户的正常业务。为了改进上述故障预测方法,相关技术利用机器学习方法预测盘故障,可以让用户在业务不繁忙时间处理用户数据,其意义和价值好于事后的数据恢复。
然而,因为磁盘的故障数量往往较小,这样磁盘故障预测的技术挑战非常大。磁盘发生故障导致系统宕机属于小概率事件,对于小规模或装载时间短的磁盘存储系统而言,发生故障磁盘的数目少之又少。同时,因为磁盘SMART特征稀疏且磁盘临近故障才发生突变,导致大部分与故障相关的SMART特征值为零。因此,SMART特征的稀疏性导致大量的与正常磁盘对应的负样本容易预测,而与故障磁盘对应的正样本难以预测。
发明内容
本发明提供一种磁盘故障预测方法和系统,旨在解决现有的磁盘故障预测技术,对小样本磁盘故障的预测准确率不高,且正样本难以预测的问题。
为实现上述目的,本发明提供了一种磁盘故障预测方法,包括:
使用自我监测、分析及报告SMART技术对磁盘数据集进行采样,标记得到与故障磁盘对应的正样本以及与正常磁盘对应的负样本;
按照预设时序提取每个正样本和负样本的SMART特征,得到每个正样本和负样本的时序特征;
在极致梯度提升XGBoost算法中导入自定义损失函数,得到改进型XGBoost算法;其中,在自定义损失函数中正样本误分类造成的损失大于负样本;
以时序特征作为输入、且以正样本和负样本作为输出,导入至改进型XGBoost算法,以使改进型XGBoost算法对磁盘数据集进行机器学习,得到磁盘故障预测模型。
优选地,在得到磁盘故障预测模型后,磁盘故障预测方法还包括:
使用磁盘故障预测模型对磁盘测试集中的磁盘进行故障预测;得到各个磁盘的故障预测概率;
根据故障预测概率对故障磁盘进行排序,得到预设数量的故障磁盘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010471262.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:门锁设备及控制方法
- 下一篇:一种服务器的循环上下电测试方法和系统