[发明专利]一种云计算平台的硬盘故障预测方法在审
申请号: | 201410837805.1 | 申请日: | 2015-08-03 |
公开(公告)号: | CN104503874A | 公开(公告)日: | 2015-07-29 |
发明(设计)人: | 周嵩;王景峰;柏文阳;宋云华 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/34 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 平台 硬盘 故障 预测 方法 | ||
1.一种云计算平台的硬盘故障预测方法,其特征在于,包括以下步骤:
步骤一,根据硬盘维修记录,将故障预测时间窗口内发生故障的硬盘的SMART日志数据标记为故障硬盘样本,将没有发生故障的硬盘的SMART日志数据标记为正常硬盘样本;
其中,根据硬盘任一时刻的SMART观测值,预测该硬盘从该时刻起的一段时间内是否会发生故障,该段时间就是硬盘故障预测时间窗口;
步骤二,对正常硬盘样本采用基于密度的含噪声应用空间聚类算法进行聚类,去除聚类簇之外的噪音样本,保留聚成簇的正常硬盘样本;
步骤三,将去噪后的正常硬盘样本采用K-means算法进行聚类,从而将其划分为k个不相交子集,并分别与故障硬盘样本合并成k个原始训练集,其中k为K-means聚类的个数,k的取值为小于样本数量的自然数;
步骤四,对每个原始训练集中的故障硬盘样本根据少数样本合成过采样技术算法进行过采样,使得训练集中故障硬盘样本与正常硬盘样本的数量一致,从而得到k个平衡训练集;
步骤五,分别采用径向基函数内核的LIBSVM工具在k个平衡训练集上训练支持向量机模型,得到集成分类器的k个支持向量机子分类器;
步骤六,对测试样本集采用基于密度的含噪声应用空间聚类算法进行聚类,删除聚成簇的样本,保留聚类簇之外噪音样本,并将删除的样本预测为正常硬盘样本;
步骤七,将剩余的噪音样本分别用训练阶段得到的k个支持向量机子分类器预测,并投票确定分类结果,若对一个测试样本判断为故障硬盘样本的投票数超过设定的阈值,则预测为故障,否则预测为正常。
2.根据权利要求1所述的一种云计算平台的硬盘故障预测方法,其特征在于,步骤二中,采用基于密度的含噪声应用空间聚类算法对正常硬盘样本进行聚类包括以下步骤:
步骤(21)任选正常硬盘样本集中一个未被访问的样本p,检查样本p半径Eps的邻域内样本对象的数量,若大于等于设定的最少包含样本数目Minpts,则建立新簇C,将样本p及其半径为Eps的邻域内的所有样本对象加入簇C;若小于样本数目Minpts,则将样本p标记为噪音样本;
步骤(22)任选簇C中一个未访问的样本q,检查样本q的半径为Eps的邻域,若其邻域内样本对象的数量大于等于设定的最少包含样本数目Minpts,则将样本q及其邻域内的样本加入簇C;
步骤(23)重复步骤(22),直到簇C中的所有样本对象均被访问过;
步骤(24)重复步骤(21)~(23),直到正常硬盘样本集中的所有样本对象均被访问过,且均被加入一个簇或标记为噪音;
其中Eps表示半径,其取值为正实数,Minpts表示最少包含样本数目,其取值为小于样本数量的自然数。
3.根据权利要求2所述的一种云计算平台的硬盘故障预测方法,其特征在于,步骤三中,采用K-means算法对去噪后的正常硬盘样本进行聚类包括以下步骤:
步骤(31)任选正常硬盘样本集中k个样本对象为初始聚类中心,其中k为设定的聚类个数;
步骤(32)计算正常硬盘样本集中所有样本到k个聚类中心的距离,并将每个样本划归到最近距离的聚类;
步骤(33)重新计算k个聚类的聚类中心,聚类中心为该聚类中所有样本对象的均值;
步骤(34)重复步骤(32)~(33),直到满足收敛条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410837805.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息诊断方法及系统
- 下一篇:数据同步方法、装置以及系统