[发明专利]一种超算平台资源使用监控方法在审
申请号: | 201911150115.8 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110928756A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 周佳佳;戴超群 | 申请(专利权)人: | 苏州交驰人工智能研究院有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F11/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 215000 江苏省苏州市中国(江苏)自由贸*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平台 资源 使用 监控 方法 | ||
本发明提供一种超算平台资源使用监控方法,包括:确定当前计算资源上正在执行的用户任务进程的数量;当正在执行的用户进程的数量是否等于1;如果是,则确定调度系统是否已将当前计算资源分配,如果已分配,且当查找不到正在执行的用户任务进程时,确定当前计算资源被浪费确定当前计算资源被浪费。
技术领域
本发明涉及超算领域,尤其涉及一种超算平台资源使用监控方法。
背景技术
超算平台在各行各业中已经得到广泛应用。用户在向超算平台提交任务时,会申请所需计算资源,包括CPU和GPU等,超算平台的调度系统为该任务分配计算资源。在合理情况下,该计算资源被分配的用户提交的任务进程占用使用。但实际情况中存在不合理的情形,比如其他用户向该计算资源不合理提交任务进程导致冲突等问题。这些不合理情形需要超算平台的运维人员定期排查并解决,现有技术中对这些问题的排查主要依靠人工基于随意的逻辑进行,效率非常低下。
发明内容
本发明的目的在于提供一种超算平台资源使用监控方法,能够快速发现各种不合理资源使用问题,为运维人员采取后续措施提供帮助。
为实现上述目的,本发明一方面提供一种超算平台资源使用监控方法,包括:
确定当前计算资源上正在执行的用户任务进程的数量;
当正在执行的用户进程的数量是否等于1;如果是,则确定调度系统是否已将当前计算资源分配,如果已分配,且当查找不到正在执行的用户任务进程时,确定当前计算资源被浪费确定当前计算资源被浪费。
在一个优选的实施例中,所述方法还包括:如果确定调度系统已将当前计算资源分配,且当存在正在执行的用户任务进程,并且正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户不一致时,则确定当前计算资源被该正在执行的用户任务进程错误提交。
在一个优选的实施例中,所述方法还包括:如果确定调度系统已将当前计算资源分配,且正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户一致时,确定当前计算资源处于正常状态。
通过上述实施例,能够快速发现各种不合理资源使用问题,为运维人员采取后续措施提供帮助。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例提供的一种超算平台资源使用监控方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
超算平台GPU利用率低的原因有很多种,本专利发明人通过长期工作的经验总结将GPU利用率低的原因归纳为几类典型问题。同时在实际中对这些问题的排查通常是费时费力的,为此发明人开发出一套排查这些问题的解决方案,可以通过自动执行的脚本文件等方式定期自动巡查导致GPU利用率低的各种现象的发生,极大降低为提高GPU利用率而产生的运维工作量大的问题。
图1示出了本发明实施例提供的一种超算平台资源使用监控方法,该方法包括:
步骤S101:确定当前计算资源上正在执行的用户任务进程的数量。
当前计算资源可以是GPU等成本较高的计算资源。确定用户任务进程的数量可以通过运行在当前计算资源所在的服务器上的脚本来实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州交驰人工智能研究院有限公司,未经苏州交驰人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911150115.8/2.html,转载请声明来源钻瓜专利网。