[发明专利]一种并行作业运行故障定位方法有效
申请号: | 201810356611.8 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108632086B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 朱光慧;曾云辉;刘晓旭 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;G06F9/50 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 叶亚林 |
地址: | 250013 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 作业 运行 故障 定位 方法 | ||
本发明涉及一种并行作业运行故障定位方法。该方法针对并行作业运行过程中出现的故障,首先列举了导致故障发生的所有原因,并对其进行分类、分级;然后,通过问题规模及其关联关系,建立故障定位分析方法,由上而下、逐层排查故障原因,缩小了故障的处理范围,有效解决了高性能计算系统中故障定位难度高且准确性差的问题。
技术领域
本发明涉及一种并行作业运行故障定位方法,属于高性能计算的技术领域。
背景技术
随着求解问题规模越来越大,大规模并行计算任务也越来越多。由于高性能计算系统庞大且结构复杂,参与大规模计算的节点数巨大,在作业运行过程中经常会出现各种软硬件资源故障,进而导致作业提交不上、作业提交上但一直处于PEND状态、作业提交运行后非正常结束、作业挂死等问题。目前,利用已有的系统资源监测管理工具,可以在一定程度上获取作业运行状态,包括作业状态、作业运行所依赖的系统资源状态和故障信息。但是,一方面,由于导致故障发生的原因复杂多样,且关联性强,仅通过获取的故障信息无法清晰地定位故障根源;另一方面,由于故障处理策略不合理,导致故障响应时间过长、无法快速恢复。随着E级计算机的建设,HPC系统日益复杂,为故障的分析带来了很大的挑战。因此,如何充分利用获取到的故障信息进行快速的故障定位是亟需解决的关键问题。
为了提高并行作业运行的可靠性和异常因素影响分析能力,现有技术中的并行作业运行状态分析方法,可以获取作业运行时的特征(主要包括基于定性信息的状态特征参数和基于性能参数的量化特征参数)和故障信息,及时发现故障;但是现有技术中的方法并没有给出具体的故障定位方法。
例如,高剑,于康等人在文献“面向高性能计算的分布式故障定位框架.计算机应用,2018,38(1),2018,pp.44-49”中提出了一种基于消息传递的故障检测与分析方法,该方法没有对故障进行分类、分级,故障定位的时效性没有保障。
发明内容
针对现有技术的不足,本发明提供一种并行作业运行故障定位方法。本发明默认作业程序已由用户调试完成,不考虑作业程序本身的故障。
本发明的技术方案为:
一种并行作业运行故障定位方法,包括步骤如下:
1)获取系统信息
所述系统信息包括作业状态、计算节点状态、网络系统状态、文件系统状态和作业与资源管理系统状态;计算节点状态、网络系统状态、文件系统状态和作业与资源管理系统状态为作业运行所依赖的系统资源状态;所述系统信息通过已有的系统监测管理工具获取;
从用户将作业提交到系统中,到作业的完成并退出,每个阶段都有对应的作业状态。
作业状态是高性能计算系统中用户提交的作业程序的运行状态;作业状态的含义如下:
1.1)PEND:作业正在调度;正在队列中进行调度并等待分派,尚未选择和分配到系统资源,作业还未开始执行,未占用系统资源;
1.2)STARTING:作业正在启动;是作业分配到系统资源后到作业启动完成并开始运行之间的过渡状态;
1.3)RUN:作业正在运行;作业已经完成调度和分派,作业占用系统资源;
1.4)DONE:作业正常完成并退出;
1.5)EXIT:作业异常完成并退出;
1.6)HANG:作业挂死;仍显示RUN,但作业数据已停止输出,且没有退出;
计算节点状态是高性能计算系统中计算节点的状态;计算节点状态包括idle节点空闲、busy节点忙、boot节点正在引导、hardft节点发生硬件故障、down节点宕机或监测不通、softft节点已经引导成功但HCA卡或文件系统不可用;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810356611.8/2.html,转载请声明来源钻瓜专利网。