[发明专利]一种基于超算的作业调度优化系统及方法在审
申请号: | 202211121263.9 | 申请日: | 2022-09-15 |
公开(公告)号: | CN115454600A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 涂阳;韩昊;李国庆 | 申请(专利权)人: | 济南超级计算中心有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250000 山东省济南市自由贸易试验区济南片区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 作业 调度 优化 系统 方法 | ||
本发明提供一种基于超算的作业调度优化系统及方法,涉及计算机高性能计算技术领域,该作业调度优化系统通过调度缓存服务器获取并缓存调度系统中当前所有用户的等待作业数量;以及通过作业缓存服务器接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;从调度缓存服务器中获取该用户的等待作业数量,若等待作业数量小于或等于预设的数量阈值,则将作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于数量阈值,停止提交作业。这样,在超算集群用户规模增大,且作业数量增多的情况下,可以减少调度系统的访问次数,提高其稳定性。
技术领域
本发明属于计算机高性能计算技术领域,尤其涉及一种基于超算的作业调度优化系统及方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
随着高性能计算技术的发展,超算集群的作业调度已经成为超算日常运行中一个十分重要的组成部分。在超算集群的作业调度过程中,用户提交作业给调度系统,由调度系统对超算集群的资源进行分配调度。
为使超算集群调度稳定运行,目前较为常见的方法是通过调度系统来限制每个用户提交的最大作业数量,以保证调度能够在一定数量的作业中稳定运行。这种方案的局限性在于,随着超算集群用户规模的增大,作业数量也越来越多,这样对调度系统的访问次数不断增多,使得调度系统本身的状态越来越不稳定,从而影响超算集群资源的分配效率。
发明内容
为了解决上述问题,本发明提供一种基于超算的作业调度优化系统及方法,以在超算集群用户规模增大,且作业数量增多的情况下,尽可能地减少对调度系统的访问次数,提高调度系统的稳定性。
为了实现上述目的,本发明主要包括以下几个方面:
第一方面,本发明实施例提供一种基于超算的作业调度优化系统,包括调度系统和超算集群,所述调度系统用于对超算集群的资源进行分配调度,还包括:调度缓存服务器和作业缓存服务器;
所述调度缓存服务器用于获取并缓存调度系统中当前所有用户的等待作业数量;
所述作业缓存服务器用于接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;从所述调度缓存服务器中获取该用户的等待作业数量,若所述等待作业数量小于或等于预设的数量阈值,则将所述作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于所述数量阈值,停止提交作业。
在一种可能的实施方式中,所述作业缓存服务器具体用于针对作业缓存队列的每一个作业,计算作业使用的总进程数与作业排队等待时间的乘积,将该乘积与初始权重的和值确定为作业的权重,将所述作业缓存队列的作业按照所述权重进行排序。
在一种可能的实施方式中,所述作业缓存服务器在判定该用户的等待作业数量大于数量阈值时,对接收到的作业进行缓存。
在一种可能的实施方式中,所述调度系统在接收到用户的作业缓存队列时,向所述调度缓存服务器发送更新用户等待作业数量的通知。
在一种可能的实施方式中,所述调度系统在用户提交的作业完成时,向所述调度缓存服务器发送更新用户等待作业数量的通知。
在一种可能的实施方式中,当所述调度缓存服务器获取并缓存用户的等待作业数量时,向所述作业缓存服务器发送缓存服务通知。
第二方面,本发明实施例提供一种基于超算的作业调度优化方法,包括:
获取并缓存调度系统中当前所有用户的等待作业数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南超级计算中心有限公司,未经济南超级计算中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211121263.9/2.html,转载请声明来源钻瓜专利网。