[发明专利]一种分布式存储集群的节点故障预测方法和装置在审
申请号: | 202211442553.3 | 申请日: | 2022-11-17 |
公开(公告)号: | CN116010191A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 谢胜;刘宽;夏勇;段江南;黄景平 | 申请(专利权)人: | 天翼云科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/07;G06F17/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100010 北京市东城区青*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 存储 集群 节点 故障 预测 方法 装置 | ||
本申请公开了一种分布式存储集群的节点故障预测方法和装置,涉及计算机应用技术领域。本申请实施例通过获取存储系统中每个存储节点在预设时间内的告警信息,并对告警信息进行正则多元分解,得到能够表征每个存储节点各自对应的节点名称、告警时间和故障类型的三维张量;再利用预设的预测模型对三维张量进行迭代计算,直到预测误差满足收敛条件时,输出预测结果矩阵,并基于预测结果矩阵,得到用于表征在目标时间段的目标存储节点将发生目标故障类型的故障事件的预测结果。本申请实施例能够在消耗较少的计算资源的前提下,实现对大规模分布式存储集群中的未来故障事件的准确预测,更加轻量级,能够满足更多的运用场景。
技术领域
本申请涉及计算机技术领域,具体涉及一种分布式存储集群的节点故障预测方法和装置。
背景技术
目前主流的针对大规模分布式存储集群的故障预测方法是使用随机森林、LSTM(Long Short-Term Memory,长短期记忆网络)等机器学习手段对历史监控数据进行建模,但在长期运行的大规模分布式存储集群中,事件种类繁多、数量巨大、发生频率稀疏、分布极不均衡,现有的机器学习方法只能预测少数几种事件,且会消耗大量计算资源,因此不适用于实际的生产环境。因此,目前亟需一种更加轻量化的分布式存储集群的节点故障预测方法。
发明内容
本申请针对现有的问题,提出了一种适用于企业级分布式存储集群的轻量化节点故障预测方法及相关装置,具体技术方案如下:
在本申请的第一方面,提供一种分布式存储集群的节点故障预测方法,所述方法包括:
获取存储系统中每个存储节点在预设时间内的告警信息;所述告警信息包括每个所述存储节点各自对应的节点名称、告警时间和故障类型;
对所述告警信息进行正则多元分解,得到三维张量,所述三维张量用于表征每个所述存储节点各自对应的节点名称、告警时间和故障类型;
利用预设的预测模型对所述三维张量进行迭代计算,直到预测误差满足收敛条件;
在所述预测误差满足所述收敛条件时,输出预测结果矩阵,并基于所述预测结果矩阵,得到预测结果,所述预测结果表征在目标时间段的目标存储节点将发生目标故障类型的故障事件。
在本申请一实施例中,获取存储系统中每个存储节点在预设时间内的告警信息,包括:
获取所述存储系统中每个系统节点的节点标识,并基于所述节点标识,确定所述存储节点;
获取每个所述存储节点在预设时间内的告警信息。
在本申请一实施例中,对所述告警信息进行正则多元分解,得到三维张量,包括:
将所述节点名称映射为由各个名称序号组成的名称矩阵;
对所述告警时间进行预处理,以将所述告警时间映射为由各个时间序号组成的时间矩阵;
对所述故障类型进行预处理,以将所述故障类型映射为由各个故障序号组成的故障矩阵;
基于所述名称矩阵、时间矩阵和故障矩阵,得到所述三维张量。
在本申请一实施例中,对所述告警时间进行预处理,以将所述告警时间映射为由各个时间序号组成的时间矩阵,包括:
按照预设时间间隔,将所述告警时间划分为若干个时间段;
对每个所述时间段内的告警时间进行去重处理,得到目标告警时间;
对所述目标告警时间进行排序,得到由各个时间序号组成的时间矩阵。
在本申请一实施例中,对所述故障类型进行预处理,以将所述故障类型映射为由各个故障序号组成的故障矩阵,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼云科技有限公司,未经天翼云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211442553.3/2.html,转载请声明来源钻瓜专利网。