[发明专利]一种并行作业运行故障定位方法有效
申请号: | 201810356611.8 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108632086B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 朱光慧;曾云辉;刘晓旭 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;G06F9/50 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 叶亚林 |
地址: | 250013 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种并行作业运行故障定位方法。该方法针对并行作业运行过程中出现的故障,首先列举了导致故障发生的所有原因,并对其进行分类、分级;然后,通过问题规模及其关联关系,建立故障定位分析方法,由上而下、逐层排查故障原因,缩小了故障的处理范围,有效解决了高性能计算系统中故障定位难度高且准确性差的问题。 | ||
搜索关键词: | 一种 并行 作业 运行 故障 定位 方法 | ||
【主权项】:
1.一种并行作业运行故障定位方法,其特征在于,包括步骤如下:1)获取系统信息所述系统信息包括作业状态、计算节点状态、网络系统状态、文件系统状态和作业与资源管理系统状态;作业状态是高性能计算系统中用户提交的作业程序的运行状态;作业状态的含义如下:1.1)PEND:作业正在调度;正在队列中进行调度并等待分派,尚未选择和分配到系统资源,作业还未开始执行,未占用系统资源;1.2)STARTING:作业正在启动;是作业分配到系统资源后到作业启动完成并开始运行之间的过渡状态;1.3)RUN:作业正在运行;作业已经完成调度和分派,作业占用系统资源;1.4)DONE:作业正常完成并退出;1.5)EXIT:作业异常完成并退出;1.6)HANG:作业挂死;仍显示RUN,但作业数据已停止输出,且没有退出;计算节点状态是高性能计算系统中计算节点的状态;网络系统状态是高性能计算系统中计算节点的网络接口状态;文件系统状态是高性能计算系统中全局文件系统的状态;作业与资源管理系统状态是高性能计算系统中的作业管理情况和资源管理情况;相应的进程包括,资源管理总控、作业管理总控和作业调度器;2)对事件进行分类和严重等级分级事件分类包括:A类事件:运算系统故障;运算系统故障包括,电源故障、运算节点插件故障、CPU故障、内存故障、CPU利用率异常、内存利用率异常、运算性能异常、访存性能异常;B类事件:网络系统故障;网络系统故障包括,IB子网管理服务故障、IB子网管理节点故障、IB交换机故障、计算交换模块故障、IB网络端口故障、IB光纤故障、IB带宽异常、IB延迟异常;C类事件:文件系统故障;文件系统故障包括,文件系统服务故障、元数据服务节点故障、文件系统服务节点故障、存储管理节点故障、存储节点故障、磁盘故障、磁盘超限、IO带宽异常;D类事件:作业与资源管理系统故障;作业与资源管理系统故障包括,资源管理总控故障、作业管理总控故障、作业调度器故障、控制台故障;表1事件的影响度
其中,表1中的关键业务服务为系统功能,具体包括,文件系统服务、IB子网管理服务、资源管理总控服务、作业管理总控服务和作业调度服务;表2事件的紧急度
表3事件严重等级
严重等级的分类根据事件的“影响度”和“紧急度”组合决定,见表3;基于高性能计算系统的逻辑组件,按照表3的计算方法,并行作业运行故障分类分级表如下:表4事件分类分级说明表
由表4可知,事件严重等级为1级、和2级的故障为主要故障,事件严重等级为3级的故障为局部故障,事件严重等级为4级的故障为系统性能故障;3)故障定位故障定位分析方法如下:假设整个系统计算节点数为n,文件系统服务节点数为m,运算节点插件数为l,计算交换模块数为k,则每n/m个计算节点对应一个文件系统服务节点,每个运算节点插件对应n/l个CPU;A、如果作业提交不上,则根据作业提交失败返回的报错信息,通过关联知识库,给出故障原因和处理建议;判定为作业与资源管理系统中的作业管理总控故障或资源管理总控故障,事件严重等级为1;B、如果作业提交后一直处于PEND状态,则作业调度失败,判定作业与资源管理系统中的作业调度器故障,事件严重等级为1;进一步检查作业调度器的状态;C、如果作业在启动运行时出现异常,则作业资源分配失败,初步判定作业与资源管理系统中的资源管理总控故障,事件严重等级为1;进一步检查资源管理总控的状态;如果资源管理总控状态正常,则判定为计算资源临时出现故障,判定为运算系统故障或网络系统故障或文件系统故障;D、作业完成调度和资源分配后,作业占用的系统资源正在运行中;如果作业运行一段时间后异常退出,则计算资源出现故障,判定为运算系统故障或网络系统故障或文件系统故障;针对上述计算资源故障,如果出现故障的节点数如果出现故障的节点数大于n/l时,则首先根据问题规模及其关联关系判断故障的类型和级别,筛选出主要故障;具体如下:D1)如果作业所有节点的文件系统状态为unmounted未挂载,且计算节点状态为softft节点已经引导成功但HCA卡或文件系统不可用、网络系统状态为ok正常,则判定为文件系统服务故障,事件严重等级为1;进一步检查文件系统服务状态或元数据服务节点状态;D2)如果作业所有节点的网络状态为init初始化,且计算节点状态为softft节点已经引导成功但HCA卡或文件系统不可用、文件系统状态为unmounted未挂载,则初步判定为网络系统中的IB子网管理服务故障,事件严重等级为1;进一步检查IB子网管理服务状态或IB子网管理节点状态;D3)如果出现连续n/m的整数倍个计算节点的文件系统状态为unmounted未挂载,且计算节点状态为softft节点已经引导成功但HCA卡或文件系统不可用、网络状态为ok正常,且计算节点的物理结构号对应1个文件系统服务节点,则判定为文件系统中的文件系统服务节点故障,事件严重等级为2;进一步检查对应的文件系统服务节点状态;D4)如果出现连续n/k的整数倍个计算节点的网络状态为down关闭,且计算节点状态为softft节点已经引导成功但HCA卡或文件系统不可用、文件系统状态为unmounted未挂载,且计算节点的物理结构号对应1个计算交换模块,则判定为网络系统中的计算交换模块故障,事件严重等级为2;进一步检查对应的计算交换模块状态;D5)如果出现连续n/l的整数倍个计算节点状态为down关闭,且网络系统状态和文件系统状态均无结果显示,且计算节点的物理结构号对应1个运算节点插件,则判定为运算系统中的运算节点插件故障,严重等级为2;进一步检查对应运算节点插件的状态或电源状态;E、如果作业状态为HANG,则判定为文件系统故障或网络系统故障或计算资源性能异常;首先,通过步骤C的方法进行主要故障和局部故障定位;然后排查计算资源性能异常问题;最后,通过执行终止作业命令,再重新提交作业测试用例进行测试;如果作业正常完成,则问题解决,故障定位结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810356611.8/,转载请声明来源钻瓜专利网。