[发明专利]一种作业调度管理方法和装置在审
申请号: | 201911370441.X | 申请日: | 2019-12-26 |
公开(公告)号: | CN111190713A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 王雄斌 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F11/07;G06F11/30 |
代理公司: | 北京德恒律治知识产权代理有限公司 11409 | 代理人: | 章社杲;卢军峰 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作业 调度 管理 方法 装置 | ||
本发明提供了一种作业调度管理方法以及装置,该方法包括:提交作业并将作业分配到计算节点上运行;采集在计算节点上发生的硬件故障内容;根据硬件故障内容得到计算节点的硬件健康度分数;当计算节点上的作业运行退出时,将硬件健康度分数反馈给提交作业的用户。在作业退出信息中,增加该作业所关联各节点的硬件健康度分数信息,可以帮助用户分析提升作业运行效率的方法,以及分析异常退出的原因。
技术领域
本发明涉及一种作业调度管理方法和装置。
背景技术
集群计算系统具有低成本、高性能的特性,提供了强大的批处理和并行计算能力,代表了高性能计算机发展的主流方向。在该类系统中,通过提高硬件性能并不能完全满足用户复杂多样的要求,尤其是不能满足大规模科学计算和商业应用的要求,还需要对计算资源进行高效的管理。
集群作业管理系统正是适应这种需求而出现并快速发展起来的。它可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。目前比较流行的作业管理系统有PBS、Slurm等。
用户将自己的计算需求转换为一个个的作业,交付给作业调度系统进行调度。作业调度系统首先将新提交的作业放在某个作业队列,同时判断该用户的当前空闲资源是否满足该作业运行所需要的硬件资源。满足则将该作业分配到若干节点上运行,不满足则等待。作业处于运行状态后,会根据任务内容的大小在一定时间后退出运行(成功或失败)。
现有作业调度管理系统,主要从软件资源方面对作业的各个状态(排队、运行、完成、挂起等)进行管理。当节点发生硬件故障(比如网络不通、突然断电、CPU温度过高等)时,节点上正在运行的作业会直接退出。在调度管理系统反馈给用户的错误信息中并不包含这些硬件故障。用户只能再次去检查其作业的编写逻辑,然后重新提交作业,尝试运行。
现有技术存在如下缺陷:
1.集群计算能力的用户感知不到节点是否发生故障,因而在作业异常退出的原因分析上存在盲区。
2.节点故障的运维人员,仅仅能在基础设施层面对节点的故障跟踪原因、解决问题,不能精准地对上层应用的用户提供硬件故障提醒。
发明内容
针对相关技术中存在的问题,本发明的目的在于提供一种作业调度管理方法和装置方法和装置,在作业退出信息中,增加该作业所关联各节点的硬件健康度分数信息,可以帮助用户分析提升作业运行效率的方法,以及分析异常退出的原因。
根据本发明的实施例,提供了一种作业调度管理方法,包括:提交作业并将作业分配到计算节点上运行;采集在计算节点上发生的硬件故障内容;根据硬件故障内容得到计算节点的硬件健康度分数;当计算节点上的作业运行退出时,将硬件健康度分数反馈给提交作业的用户。
根据本发明的实施例,根据硬件故障内容得到计算节点的硬件健康度分数,包括,根据故障类型是否会影响作业运行,得到该节点的硬件健康度分数,其中,影响作业运行的故障类型对应的硬件健康度分数低于不影响作业运行的故障类型对应的硬件健康度分数。
根据本发明的实施例,影响作业运行的故障类型包括第一故障类型和第二故障类型,其中,第一故障类型对应的硬件健康度分数高于第二故障类型对应的硬件健康度分数,第一故障类型对作业运行的影响程度小于第二故障类型对作业运行的影响程度。
根据本发明的实施例,采集在计算节点上发生的硬件故障内容,包括:从电源、CPU、内存、硬盘、网络、风扇部件进行采集硬件故障内容。
根据本发明的实施例,将硬件健康度分数反馈给提交作业的用户,包括,将作业运行过程中的最低健康度分数反馈给用户。
根据本发明的实施例,作业调度管理方法,还包括:监测计算节点上发生的硬件故障内容;根据监测的结果调整分配的调度策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911370441.X/2.html,转载请声明来源钻瓜专利网。