[发明专利]一种面向高性能计算机的海量计算节点资源监控管理方法有效
申请号: | 202010952582.9 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112000486B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 戴屹钦;卢凯;董勇;王睿伯;张伟;张文喆;邬会军;李佳鑫;谢旻;周恩强;迟万庆;陈娟 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/54 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 性能 计算机 海量 计算 节点 资源 监控 管理 方法 | ||
1.一种面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,包括控制节点通过中间节点发送消息发送请求的下述步骤:
1)控制节点取出一个消息发送请求,生成一个用于处理该消息发送请求的工作线程;
2)通过该工作线程选择一个正常的中间节点;
3)通过该工作线程向选择的中间节点转发该消息发送请求,然后等待由该中间节点返回的消息,且在收到该中间节点返回的消息后跳转执行下一步;
4)工作线程处理返回的消息,工作线程更新中间节点和计算节点的状态,工作线程结束;
步骤1)中控制节点取出一个消息发送请求具体是指控制节点的控制线程从全局链上取出一个消息发送请求,所述全局链用于存储控制节点的消息发送请求,所述控制线程用于管理每一个消息发送请求及其对应的工作线程;
步骤2)中通过该工作线程选择一个正常的中间节点具体是指采用轮询法从所有中间节点构成的中间节点列表中依次选择一个正常的中间节点,且采用状态机记录各个中间节点的状态,状态机包括状态0、1两种状态以及事件1~3三种事件,状态0代表节点故障;状态1代表节点正常,事件1为控制节点发送PING消息给中间节点且得到正确返回值;事件2为控制节点发送PING消息给中间节点且无法得到返回值;事件3为控制节点向正常的中间节点转发消息发送请求且无法得到返回消息,当发生事件1时,若状态机的原状态为状态0则变更为状态1,若状态机的原状态为状态1则保持状态不变;当发生事件2时,若状态机的原状态为状态0则保持状态不变,若状态机的原状态为状态1则变更为状态0;当发生事件3时,若状态机的原状态为状态1则变更为状态0。
2.根据权利要求1所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤3)中等待由该中间节点返回的消息时,若等待超时仍未收到该中间节点返回的消息,则跳转执行步骤2)以重新选择下一个正常的中间节点处理该消息发送请求。
3.根据权利要求1所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤3)中通过该工作线程向选择的中间节点转发该消息发送请求时,转发该消息发送请求的数据结构agent_t包括下述信息字段:
目标节点个数node_count,用于存储消息发送请求中的目标节点个数;
重新尝试标识retry,用于记录发送失败后是否需要进行重新尝试的标识;
目标节点链hostlist,用于记录目标节点链;
消息类型msg_type,用于记录需要发送的消息类型;
消息主体msg_args,用于记录需要发送的消息主体。
4.根据权利要求3所述的面向高性能计算机的海量计算节点资源监控管理方法,其特征在于,步骤3)中收到该中间节点返回的消息时,中间节点返回的消息的数据结构agent_response_t包括下述信息字段:
通信错误节点列表comm_err_nodelist,用于存储在通过星形结构进行发送时使用通信函数并出现错误的目标节点;
任务编号job_id,用于存储与srun命令有关的消息发送请求的任务编号返回值;
步骤编号step_id,用于存储与srun命令有关的消息发送请求的步骤编号返回值;
重试节点列表retry_nodelist,用于存储的是需要重新发送消息的目标节点;
no_resp_nodelist,用于存储的是最终状态为DSH_NO_RESP的发送线程包含的目标节点;
失败节点列表failed_nodelist,用于存储的是最终状态为失败DSH_FAILED的发送线程包含的目标节点;
重复节点列表dupid_nodelist,用于存储的是最终状态为重复DSH_DUP_JOBID的发送线程包含的目标节点;
完成节点列表done_nodelist,用于存储的是最终状态为完成DSH_DONE的发送线程包含的目标节点;
失败节点列表error_nodelist,用于存储的是具有无法识别的最终状态的发送线程包含的目标节点;
信息链ret_list,用于记录返回信息链,包含的是该消息发送请求的所有目标节点的返回值组成的链,链上的每一个节点都对应着一个计算节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010952582.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烹饪设备及油烟排放控制方法
- 下一篇:一种简易叠装组合式白蚁诱捕装置