[发明专利]一种作业调度方法及装置在审
申请号: | 201910564130.0 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110362403A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 何翔龙 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 富爱民;解婷婷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 挂起状态 可用节点 作业调度 资源利用率 资源调度 申请 分区 优化 | ||
本申请提供一种作业调度方法及装置,所述方法包括:当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。本申请在作业进入挂起状态后,可以调整到其它可用节点上运行,从而实现了资源调度的优化,提高了资源利用率。
技术领域
本发明涉及计算机领域,尤其涉及作业调度方法及装置。
背景技术
Slurm(一种开源作业调度框架)工作调度工具是面向Linux(一套免费使用和自由传播的类Unix操作系统)和Unix(一种操作系统)类似内核的免费和开源工作调度程序,由世界上许多超级计算机和计算机集群使用。Slurm 提供了以下几个关键功能。1、Slurm在一段时间内为用户分配对资源(例如计算机节点)的独占和/或非独占访问权限,以便他们可以执行工作。2、Slurm 提供了一个框架,用于在一组分配的节点上启动,执行和监视工作。3、Slurm 通过管理待处理作业队列来仲裁资源争用。
Slurm对作业调度的基本策略包括:1、对集群中存在的物理节点设置分区,一个节点可以属于多个分区,可以设置作业执行的默认分区。2、对每个分区可以设置不同的优先级。3、根据对作业设置的运行分区,对作业实行调度,包括抢占与等待。
例如:
[user@n16~]$sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
active*up infinite 5idle n[12-16]
hipri up infinite 5idle n[12-16]
[user@n16~]$grep PartitionName/shared/slurm/slurm.conf
PartitionName=DEFAULT OverSubscribe=FORCE:1Nodes=n[12-16]
PartitionName=active PriorityTier=1Default=YES
PartitionName=hipri PriorityTier=2
上面代码为两个分区的配置,其中hipri分区的优先级为2,active分区的优先级为1,hipri分区和active分区都建立在12-16号节点之上。
现有的Slurm调度策略中,对于作业所运行的节点在第一次分配后就固定了,后续不能动态修改。如果低优先级分区作业的资源被高优先级分区作业抢占后进入挂起状态,进入挂起状态的作业需要等待高优先级分区作业运行完毕后,才可以继续在第一次分配的节点上运行,即使该挂起状态的作业对应分区中有其它可用节点也不能使用,使得作业调度不够优化,资源利用率低。
发明内容
本申请所要解决的技术是提供一种作业调度方法及装置,可以更合理的进行资源调度,提高资源利用率。
为了解决上述技术问题,本申请提供了一种作业调度方法,包括:
当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564130.0/2.html,转载请声明来源钻瓜专利网。