[发明专利]一种超级计算机计算资源故障预测方法在审
申请号: | 202110324746.8 | 申请日: | 2021-03-26 |
公开(公告)号: | CN114218846A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 刘鑫;钱宇;宋长明;龚道永;李伟东;张宏宇;刁晓娜 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F119/02 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 王健 |
地址: | 214038 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 超级 计算机 计算 资源 故障 预测 方法 | ||
本发明公开一种超级计算机计算资源故障预测方法,包括以下步骤:S1、每隔s秒采集一个计算节点的特征信息,记为x1s;N个s秒为时间窗口T;S2、经过m个时间窗口T的数据积累,得到m个总特征X作为输入样本;S3、将S2中经数据处理后的m个总特征X和对应状态Y按batch大小划分成组;S4、从(m+1)个时间窗口T开始,将采集到的最新的总特征X_test和对应状态Y_test根据S2进行数据处理;S5、设置阈值并对比预测结果Y’和对应状态Y_test,当偏差大于设定的阈值时,将训练模型进行调参重训练,重复S4。本发明解决了超级计算机计算资源故障难以有效提前预测的问题。
技术领域
本发明涉及一种超级计算机计算资源故障预测方法,属于故障预测技术领域。
背景技术
计算资源是超级计算机系统资源的主要组成。在计算故障发生前提前预测潜在的资源故障可有助于进行预防性的前瞻式容错,为在故障发生前的前置式处理赢得时间,从而降低甚至避免潜在故障的破坏性影响,从而提高系统的可用性。
当前,超级计算机系统的故障预测方法主要有贝叶斯条件预测、统计预测、人工建模预测等。人工建模预测工作量大,且无法适应系统生命周期内不断变化的故障模型;条件预测速度快,但是准确性差;统计预测计算量大,且对故障发生规律的变化不敏感,准确率难以有效提高。现有预测方法无论在故障预测的时效性、准确率和适应性上都无法满足现有超级计算机系统的故障预测需求。
随着超级计算机运算资源规模的不断扩大,系统平均无故障时间持续降低,可靠性和可用性问题日益突出,系统突发性故障将对应用运行造成破坏性影响。
发明内容
本发明的目的是提供一种超级计算机计算资源故障预测方法,以解决超级计算机计算资源故障难以有效提前预测的问题。
为达到上述目的,本发明采用的技术方案是:提供一种超级计算机计算资源故障预测方法,包括以下步骤:
S1、每隔s秒采集一个计算节点的特征信息,记为x1s ;
N个s秒为时间窗口T,则在一个时间窗口T中累积的特征信息为X1:{x1s,x2s,…,xT},在一个间隔时间t之后的t’时间区间内计算节点对应状态为Y1:{y1t};
N个计算节点在一个时间窗口T中累积的总特征为X:{X1,X2,…,XN},在一个时间间隔t之后的t’时间区间内计算节点对应状态为Y:{Y1,Y2,…,YN};
S2、经过m个时间窗口T的数据积累,根据S1,得到m个总特征X作为输入样本,m个对应状态Y作为输出样本,分别对输入样本和输出样本依次进行标准化处理和0-1编码处理的数据处理,获得适用于训练的m个总特征X和对应状态Y;
S3、将S2中经数据处理后的m个总特征X和对应状态Y按batch大小划分成组,依次传入卷积神经网络和长短期记忆模型中进行调参迭代训练并生成预测模型;
S4、从(m+1)个时间窗口T开始,将采集到的最新的总特征X_test和对应状态Y_test根据S2进行数据处理,然后按batch大小划分成组,将X_test传入S3中生成的预测模型中,输出以概率大小表示的预测结果Y’;
S5、设置阈值并对比预测结果Y’和对应状态Y_test,当偏差大于设定的阈值时,将训练模型进行调参重训练,重复S4。。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明提出一种基于卷积神经网络和长短期记忆模型的计算资源故障预测方法,通过实时采集运算资源的特征信息、自动迭代式故障预测建模和训练、基于近实时数据的模型化计算,来预测下一时间区间内运算资源可能发生故障的概率和位置,有效解决了故障预测的时效性、准确率和适应性问题,通过对系统计算资源故障的提前预测,支撑容错系统在故障发生前进行有效的规避和容错处理,以提高系统可用性,减少故障对应用运行的破坏性影响。
附图说明
附图1为本发明一种超级计算机计算资源故障预测方法的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110324746.8/2.html,转载请声明来源钻瓜专利网。