[发明专利]用户发起的运行时状态检测方法在审
申请号: | 201910891124.6 | 申请日: | 2019-09-20 |
公开(公告)号: | CN112540894A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 于康;董恩铭;何王全;卿鹏;方燕飞;漆锋滨 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 王健 |
地址: | 214083 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 发起 运行 状态 检测 方法 | ||
本发明公开了一种用户发起的运行时状态检测方法,子节点将通信域记录的运行时状态信息发送给父节点;父节点开始进入收消息流程,收到子节点发来的第一个状态包后设置与通信域编号绑定的定时器并进入下一次消息流程,若定时器超时之前所有子节点状态包到齐,则删除定时器并进入分析流程,否则其超时将触发父节点向所有超时子节点发起主动探测消息,并向网络管理部件获取端口状态和链路状态,发现问题后输出给用户;父节点收集到子节点运行时状态后,比对每个子节点每项集合操作的次数,找到最大值max_count以及未达到最大值的子节点的节点编号列表。本发明以解决用户视图长时间无输出而不清楚程序运行状态的问题。
技术领域
本发明属于计算通信系统领域,尤其涉及一种用户发起的运行时状态检测方法。
背景技术
在大规模并行程序运行过程中,由于任务分配不均匀造成的部分节点暂时无输出,与节点、网络故障等硬件错误或者软件编写错误造成的程序挂死(程序在某一操作中等待触发条件以结束该操作,然而触发条件无法达到)现象,对用户来说难以准确分辨。然而,由于系统规模巨大,特别是在无输出的条件下,用户难以快速判断是否有错误发生,以及进一步分析得到错误原因,因此为提供用户发起的运行时程序状态检查机制十分必要。
在程序运行出错时,从用户视图看会有输出结果错误、输出报错和长时间无输出三种直观表现,其中输出结果错误是指输出没有达到预期,用户需要通过分析软件代码结合调试工具确定错误原因,这种错误只能由具备预期的用户去发现和定位;输出报错通常是用户程序或者运行环境捕获到运行时错误,将错误现象甚至原因反馈给用户,进而采取相应的错误处理措施和软硬件故障修复;而对用户来说,长时间无输出是程序运行时最难以发现和定位错误的情况,由于没有反馈无法判断程序当前是否运行正常,只能求助于系统管理员进行调试和维护检查。
当前采用的检查方法包括穷尽排查和在线调试等方法。穷尽排查是指系统管理员通过维护管理工具依次排查系统硬件和运行环境状态,查找是否有可能影响当前任务运行的故障出现,从而推断出当前程序无输出是否处于不正常状态,这种方法由于不具有针对性的查找,工作量大且最后结果并不能排除程序本身错误,因而存在不确定性。在线调试是使用更多的一种方法,用户或者程序开发维护人员通过调试工具对计算系统中的单个节点依次进行检查,查看节点是否陷入死循环等状态;更进一步的方法是开发人员在程序开发时记录程序运行状态,维护人员通过在线调试工具依次检查该状态以判断程序是否运行正常。然而,在大规模环境下由于节点较多,用户依次检查耗时可能十分漫长,而且在调试过程中也可能改变程序运行状态。
发明内容
本发明目的在于提供一种用户发起的运行时状态检测方法,以解决用户视图长时间无输出而不清楚程序运行状态的问题。
为达到上述目的,本发明采用的技术方案是:一种用户发起的运行时状态检测方法,包括以下步骤,
S1、程序初始化时需要定义处理用户信号处理接口,并指定用户输入的信号量;
S2、构建全局检查树结构,根据节点布局指定树的宽度,父节点是所有子节点的管理节点,负责收集并综合分析子节点的运行时状态;
S3、运行时库需要记录程序通信状态,用于为用户的集合操作域创建、维护相应的全局检查树以及维护集合操作域的编号;
S4、当用户发现程序运行长时间无输出时,使用运行时环境提供的接口,以用户约定的信号量通知程序发起检查,进入相应的信号处理接口;
S5、在信号处理接口中,节点读取通信域编号集合,依次按照节点在编号对应的通信域中的角色执行对应检查操作,子节点将对应的通信域记录的运行时状态信息发送给相应的父节点;父节点开始进入收消息流程,收到子节点发来的第一个状态包后设置和通信域编号绑定的定时器并进入下一次消息流程,若在定时器超时之前所有子节点状态包到齐,则删除对应的定时器并进入分析流程,否则定时器超时将触发父节点向所有超时子节点发起主动探测消息,并向网络管理部件获取相应的端口状态和链路状态,发现问题后输出给用户;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910891124.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通用寄存器保留恢复的实现方法
- 下一篇:基于异构CPU的虚拟机迁移方法