[发明专利]一种模型训练方法、磁盘预测方法、装置及电子设备有效
申请号: | 202011334753.8 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112395179B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 黄泽;王梦秋;胡太祥;张泽覃 | 申请(专利权)人: | 创新奇智(西安)科技有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F11/30 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 710000 陕西省西安市高新区鱼化街办*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 磁盘 预测 装置 电子设备 | ||
本申请涉及一种模型训练方法、磁盘预测方法、装置及电子设备,属于计算机领域。方法包括获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据;基于负样本数据以及正样本数据对初始模型进行N次迭代训练,得到能预测磁盘是否故障的预测模型;在第i次迭代训练过程中,以第i‑1次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样,并将采样得到的正样本数据以及负样本数据对第i‑1次迭代训练所得的模型进行训练。该方法在对正样本进行下采样时,由于每次迭代训练所得的模型在正样本数据上产生的损失值均不同,因此每次采样的正样本数据也不同,使得在采样时可以基于分类难易度,更多关注困难的样本,从而提高了模型的精度。
技术领域
本申请属于计算机领域,具体涉及一种模型训练方法、磁盘预测方法、装置及电子设备。
背景技术
近年来,随着云存储等新兴技术的发展,海量数据存储技术发展越来越快。而磁盘作为数据最终存储的地方,是最重要的网络设备之一,也是最常发生故障的设备。基于机器学习的磁盘故障预测方法借助于机器学习算法的强大学习能力,取得了令人满意的预测效果。
目前,磁盘故障预测方法中的模型训练:大都通过将磁盘的自我监测分析和报告技术(Self-Monitoring Analysis and Reporting Technology,SMART)日志数据标记为正常样本和故障磁盘样本,并根据样本的属性值将样本尽可能的划分为多个不相干的子集,根据机器学习算法构建出预测模型,以此进行模型训练。但是对于大规模磁盘故障预测而言,非故障磁盘数量往往万倍于故障盘数量,且在实际工业场景中更期望提前一定周期预测出故障磁盘,以便于磁盘数据备份以及磁盘更换。而随着需提前预测出故障磁盘的周期增加,使得故障磁盘与正常磁盘在各项运行参数上差别也随之变小,这无疑为大规模磁盘故障预测引入了类别极度不均衡以及正常样本与异常样本难区分等问题。
在工业界处理上述问题,从数据层面而言,可通过下采样,如使用NearMiss算法、Tomeklink算法去除多数样本中与少数样本相似的样本,或者通过上采样如以SMOTE算法生成更多的少数样本,但上述方法均基于距离度量,计算复杂度高且不适用于类别特征。除此之外,上述方法还未考虑到如何提升模型在困难样本上的表现,而只是关注了类别不均衡程度。
发明内容
鉴于此,本申请的目的在于提供一种模型训练方法、磁盘预测方法、装置及电子设备,以改善现有的磁盘预测模型的预测精度不高的问题。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种模型训练方法,包括:获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据;基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练,得到能预测磁盘是否故障的预测模型;其中,在第i次迭代训练过程中,以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样,并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练,i依次取2至N。本申请实施例中,该方法在对正样本进行下采样时,是以第i-1次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样,由于每次迭代训练所得的模型在正样本数据上产生的损失值均不同,因此每次采样的正样本数据也不同,使得在采样时可以基于分类难易度(损失值的大小),更多关注困难的样本,从而提高了模型的精度。
结合第一方面实施例的一种可能的实施方式,以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样,包括:以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值为依据,将所述正样本数据分为多个桶;从每个桶中采样与该桶的预设比例对应数量的样本数据,其中,不同桶的预设比例不同。本申请实例中,通过将正样本数据分为多个桶,在采样时,不同的桶采样的数量不同,对应困难样本所在的桶,在采样时可以采样更多的样本,对于简单样本所在的桶,在采样时可以采样少一点的样本,以在更多关注困难的样本的同时也保持简单样本的数量,防止模型过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(西安)科技有限公司,未经创新奇智(西安)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011334753.8/2.html,转载请声明来源钻瓜专利网。