[发明专利]一种基于迁移学习的磁盘故障预测方法及装置在审
申请号: | 202010180436.9 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111414289A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 吴佳;李礼;陈佳;苗诗君;杨冀;季峰 | 申请(专利权)人: | 上海威固信息技术股份有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G11C29/10;G06N20/00 |
代理公司: | 上海海贝律师事务所 31301 | 代理人: | 范海燕 |
地址: | 201702 上海市青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 磁盘 故障 预测 方法 装置 | ||
本发明提供了一种基于迁移学习的磁盘故障预测方法及装置,包括数据采集模块,预处理模块,基于迁移学习的数据重标注模块,样本平衡性处理模块,在线预测模块。通过收集磁盘数据作为训练数据,对历史数据进行预处理,利用历史数据,基于迁移学习算法对数据缺失标签进行标注,磁盘样本集经过数据平衡性模块,使正负样本达到平衡,利用机器学习算法,训练磁盘故障预测模型,实时收集磁盘数据,以不同频次加入正负样本集,保证样本的平衡性;利用新样本评估磁盘故障预测模型。本发明通过迁移学习已有历史数据的分布特征,对磁盘新数据进行标注,解决了目前故障磁盘预测方案只能依赖历史数据建立离线的故障预测模型,而造成预测效率低的问题。
技术领域
本发明属于计算机数据存储领域,具体涉及一种基于迁移学习的磁盘故障预测方法及装置。
背景技术
数据中心中数据存储的高可靠性主要依赖于数据的冗余存储,最常用的一种就是RAID(Redundant Arrays of Independent Drives)技术。RAID技术是一类用于保障数据可靠性存储技术的统称。该技术的核心思想是将每一块磁盘中存储的数据及其备份视为一个整体,当某一数据或它的备份没有失效时,整个系统可以正常运行,但是如果出现了原始数据和备份数据均损坏的情况,整个系统的可靠性将无法保证,因此,该技术会在原始数据或备份数据发生损坏时对其进行重新备份。冗余存储的数据能够保证在磁盘发生意外故障时能够对丢失的数据进行恢复,但是由于磁盘阵列在进行数据恢复时无法进行任何读写操作,也就意味着在数据恢复期间数据中心的部分功能将处于宕机状态,这将带来巨大的时间成本,所以随着数据总量的不断增大,数据中心中故障磁盘的数据恢复成本越来越高。此外,考虑到只有有效数据的存储才能为数据中心带来经济效益,伴随着大数据时代到来的海量数据也将给数据的冗余存储带来巨大的经济压力。所以为了减少磁盘故障带来的损失,降低维护成本,通常采用故障预测的方式对磁盘的运行状况进行评估,以保证能够在磁盘发生故障之前及时地对其中的重要数据进行备份,减少数据丢失造成的损失,同时可以减少冗余存储,提高存储系统的整体利用率。
目前,在线磁盘故障预测领域主要存在样本标签不准确问题。按照S.M.A.R.T.(Self Monitoring Analysis and Reporting Technology)标准,我们使用的最近采集到的样本可以被分为“当前运行状态良好”和“当前磁盘发生故障”两种状态,所以最终的模型预测结果只能被解释为预测当前磁盘是否会发生故障,和原始的预测目的不一致。为了解决这一问题,首先需要设定一个“预警时间”,并假设在磁盘实际发生故障之前的这段时间之内磁盘已经预警,这样就得到了新的样本分类标准:“预测磁盘将会发生故障”和“预测磁盘将不会发生故障”。但是,在在线收集数据的过程中我们无法获知磁盘发生故障的具体时间,那么就无法对实时获取的标签信息进行修改,这就为磁盘的在线预测带来了挑战。另一方面,样本标签缺失也是实际应用中的常见问题。因此直接修改实时获取的数据标签的做法并不可行。
发明内容
针对现有技术的不足,本发明提供了一种基于迁移学习的磁盘故障预测方法及装置,目的在于能够利用已有的历史信息,通过迁移学习算法弥补缺失样本,从而可以利用少量历史数据建立磁盘故障模型。具体采用的技术方案如下:
一种基于迁移学习的磁盘故障预测方法,包括如下步骤:
(1)在磁盘存储系统中,调用数据接口,收集一定阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据;
(2)对磁盘历史数据进行预处理;
(3)利用历史数据,基于迁移学习算法对数据缺失标签进行标注,得到磁盘样本集;
(4)磁盘样本集经过数据平衡性模块,使正负样本达到平衡;
(5)基于采样处理后的数据集,利用机器学习算法,训练磁盘故障预测模型;
(6)实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海威固信息技术股份有限公司,未经上海威固信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010180436.9/2.html,转载请声明来源钻瓜专利网。