[发明专利]一种面向高性能计算机的海量计算节点资源监控管理方法有效
申请号: | 202010952582.9 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112000486B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 戴屹钦;卢凯;董勇;王睿伯;张伟;张文喆;邬会军;李佳鑫;谢旻;周恩强;迟万庆;陈娟 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/54 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 性能 计算机 海量 计算 节点 资源 监控 管理 方法 | ||
本发明公开了一种面向高性能计算机的海量计算节点资源监控管理方法,包括控制节点通过中间节点发送消息发送请求的下述步骤:控制节点取出一个消息发送请求,生成一个用于处理该消息发送请求的工作线程;通过该工作线程选择一个正常的中间节点;通过该工作线程向选择的中间节点转发该消息发送请求,然后等待由该中间节点返回的消息,且在收到该中间节点返回的消息后跳转执行下一步;工作线程处理返回的消息,工作线程更新中间节点和计算节点的状态,工作线程结束。本发明在控制节点与海量计算节点间增加一层中间节点以分担控制节点在对海量计算节点资源进行监控和管理的过程中的负载,同时降低计算节点在这一过程中的相关负载。
技术领域
本发明涉及高性能计算机的海量计算节点资源管理技术,具体涉及一种面向高性能计算机的海量计算节点资源监控管理方法。
背景技术
当前,针对高性能计算机中的海量计算节点资源采用的是单一控制节点对大量计算节点进行控制的管理模式。在系统运行过程中,控制节点需要监控并记录每一个计算节点的实时状态以便于进行任务分配等工作。实现该功能的主要方式是控制节点不断产生向计算节点发送消息的请求(消息发送请求),根据计算节点的返回消息得到计算节点的当前状态并修改控制节点上用于管理计算节点的数据结构。这些消息发送请求的共同特点是发送的消息内容相同,但目标节点的数量往往较大,甚至某些消息发送请求的目标节点会包含所有的计算节点。在处理消息发送请求时,控制节点会采用星形结构或树形结构进行消息的发送。所谓星形结构,是指控制节点直接向所有目标计算节点发送消息,而树形结构则需要由控制节点和计算节点共同构建一个通信树来完成消息的发送和接收过程。具体而言,控制节点将目标节点进行分组,分组后的组数即为通信树宽,控制节点只给每组节点中的第一个目标节点发送消息,每组第一个目标节点再按树形结构继续向该组内的其他节点进行消息发送。通常情况下,树形的消息发送模式相比星形的发送模式能给控制节点带来更小的负载。
考虑单一控制节点通过生成并处理消息发送请求从而对海量计算节点状态进行监控和管理的这一部分功能,可以发现,节点规模一旦增大,将会给系统带来多方面的问题:
一、节点规模增大时,控制节点上与监控计算节点状态有关的负载增大。
控制节点在处理消息发送请求时对目标节点进行消息发送的模式可以分为星形和树形两种。
在星形的发送模式中,控制节点上的负载与目标节点个数直接相关。对于一个消息发送请求,假设目标节点个数为n,那么控制节点会生成n个发送线程直接负责每一个目标节点的消息发送和接收,同时会生成一个监控线程监控本发送请求下所有线程的发送和接收情况并更新节点的状态信息。当节点规模扩大时,同样的发送请求将会有更多的目标节点,对于星形的发送模式,这会直接引起发送线程的增多,带来更大的CPU和网络负载。
在树形的发送模式中,控制节点上的负载与树宽相关。当节点规模增大时,如果保持之前设定的树宽不变,将会使得通信树的深度大大增加,消息转发次数变多,从而使得控制节点从发送消息到接收返回消息的时间间隔增大,返回消息的实时性下降。所以为了保证系统的性能,必然会考虑适当的增加通信树宽以降低通信树深度。一旦通信树宽增加,控制节点将目标节点分组后得到的组数增多,这会引起控制节点上与发送相关的线程数量增大,进而引起控制节点上的总线程数等比例的增加,最终导致控制节点上CPU和网络负载增大。这在控制节点不断产生大量消息发送请求的情况下更为明显。
实际上,为了避免在同时运行过多的线程,控制节点一般会设置好同一时刻内运行的该类线程的上限(如256)。此外,对于每一个发送请求,也会设置同一时刻内处理该发送请求最多允许的处在运行状态的线程上限(如12)。然而,这会导致系统处在一个矛盾的状态下:首先,如果不改变这两个上限,在节点规模增大的情况下,虽然可以保证同一时刻内线程数不会超过上限,但会使得大量发送请求进入等待状态而得不到及时的处理,系统的性能将会严重受损。其次,一旦提高这两个上限,虽然可以保证发送请求得到及时处理,但控制节点上的负载也会随之增加。
二、节点规模增大时,计算节点上与消息转发有关的负载增大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010952582.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烹饪设备及油烟排放控制方法
- 下一篇:一种简易叠装组合式白蚁诱捕装置