[发明专利]一种基于故障日志的高性能计算系统故障预测方法有效
申请号: | 202111117395.X | 申请日: | 2021-09-23 |
公开(公告)号: | CN113704075B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 刘杰;方娇丽;左克;李胜国;迟利华;胡庆丰;龚春叶;甘新标;杨博;陈旭光;肖调杰;徐涵 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F11/00;G06F16/215;G06F16/2458;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 故障 日志 性能 计算 系统故障 预测 方法 | ||
本发明公开了一种基于故障日志的高性能计算系统故障预测方法,目的是通过对故障的预测,达到高性能计算系统的主动容错,提高应用程序实际计算性能。技术方案是利用并分析处理高性能计算系统工作故障日志,对故障日志进行清洗处理,得到故障时间序列数据集C,使用K‑means方法对C进行聚类,得到K个故障类型对应的K个聚类;然后建立故障预测模型,采用K个聚类对故障预测模型进行训练,训练后的故障预测模型对故障发生时间和故障发生节点位置进行预测。采用本发明可有效提高故障预测准确度,使得能够在故障发生前规避故障结点,并在故障发生后高速定位故障,加强机器运维高效性,提高系统的可靠性。
技术领域
本发明涉及基于人工智能的故障预测方法,尤指面向高性能计算系统故障日志的故障预测方法。
背景技术
为了满足科学研究和工程应用的需求,超级计算机的性能不断提升,带来系统规模不断增大。10P~100P量级(P级是每秒运算速度达到2600万亿次)高性能计算机的规模目前已经达到数十万处理器规模。伴随着不断增加的系统规模和复杂度,高性能计算机面临着前所未有的可靠性挑战。尽管系统部件的设计中采取了多种多样的有效措施提高部件可靠性,但系统规模和复杂度的增长仍然远远超过系统部件可靠性的改善。最近的研究表明,未来E级(每秒可进行百亿亿次数学运算)高性能计算机的平均无故障时间只有半个小时左右。根据国际E级计算挑战的分析,未来E级计算系统下,当前的容错技术例如全局检查点将变得不实用。需要更好的理解故障根本原因,进一步优化现有的系统检查点技术;改善RAS数据的收集和分析,进一步深入对故障的理解,开发条件状态感知的、系统级故障预测技术来进一步优化检查点和在线迁移的时间。因此,构建下一代E级高性能计算机,需要采用新的技术提升系统自身的可靠性,降低系统容错开销。无论是基于故障预测技术的前瞻式避错,还是基于检查点技术的被动式容错,或者提升系统可靠性的调度技术,都需要对系统故障特征进行精细的定性与定量描述,并进行准确的故障预测。许多研究人员已经开展了大规模并行系统故障分析的研究并进行预测,但受限于大规模并行系统故障数据获取的约束,目前还缺乏对100P量级大规模并行系统的故障特征进行全面的、细粒度的预测方法。下面就比较有代表性的研究作简要分析。卡耐基梅隆大学的研究人员采集了LANL实验室当时的高性能计算机故障数据(但未达到P级性能),分析了高层故障类型(人为、环境、网络、软件、硬件)的分布,分析了其中一个系统与节点的故障率,研究了系统在运行初期和稳定运行期时的故障间隔时间和修复时间。但该研究没有进一步针对具体的各类关键故障进行详细分析,缺乏对各类主要故障之间的相关性分析,因此无法准确对故障类型和故障发生时间、故障发生地点进行预测。罗格斯大学和劳伦斯利弗莫尔国家实验室的研究人员研究了严重故障的时间和空间特征以及非严重故障与严重故障之间的关联关系。该研究得出了网络、应用、IO等故障的时空统计特征,以此为根据进行故障预测,但其研究不是基于故障日志的,导致故障预测的准确性不高,且在故障发生后无法快速定位故障。
发明内容
本发明要解决的技术问题在于:面向高性能计算系统提出一种基于故障日志的故障预测方法,实现对故障的高准确率预测,以达到高性能计算系统的主动容错,从而能够优化高性能计算系统互联网络的通信效率,提高高性能计算系统上并行应用程序的实际计算性能。
为了解决上述技术问题,本发明的技术方案是:基于高性能计算系统故障日志,对故障日志进行数据清洗、分析处理,为实现高性能计算系统的主动容错,提出一种新的故障预测方法。该方法首先分析高性能计算系统工作故障日志,对故障日志原始数据进行清洗,得到故障时间序列数据集,然后建立故障预测模型(CNN-BiLSTM-Attention)实现对故障发生时间和故障发生节点位置的预测。采用故障预测模型对故障时间与故障发生节点位置的预测,有效提高高性能计算系统的故障预测准确度、使得能够在故障发生前规避故障结点,并在故障发生后高速定位故障,加强机器运维高效性。
具体技术方案是:
第一步、对高性能计算系统原始故障日志信息进行分析处理,得到故障时间序列数据集C,使之适合于故障预测模型。具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111117395.X/2.html,转载请声明来源钻瓜专利网。