[发明专利]一种支持并行作业断点恢复的作业提交和恢复方法在审
申请号: | 201510042605.1 | 申请日: | 2015-01-28 |
公开(公告)号: | CN104536770A | 公开(公告)日: | 2015-04-22 |
发明(设计)人: | 张云 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F11/14 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 并行 作业 断点 恢复 提交 方法 | ||
技术领域
本发明涉及高性能计算集群作业调度管理领域,尤其涉及一种支持并行作业断点恢复的作业提交和恢复方法。
背景技术
为了提高计算速度,及通过扩大问题求解规模,解决大型而复杂的计算问题,并行计算一次可执行多个指令的算法,指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理,再将处理的结果返回给用户。
大规模并行作业通常涉及大量计算节点,且需要耗费较长时间(如三个月)才能完成。如果在作业运行过程中,并行作业由于运行所在的某一个(或多个)计算节点故障而导致作业中断,整个作业运行将前功尽弃,浪费大量时间及金钱。
发明内容
为了解决该问题,本发明提出的一种支持并行作业断点恢复的作业提交和恢复方法,本发明是专门为解决高性能领域大规模作业可靠性一整套方法。
本发明的技术方案为:
一种支持并行作业断点恢复的作业提交和恢复方法,通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。而不需要从头开始计算。
为了避免被恢复作业重复在作业队列中排队等待,本发明还提供了作业恢复后自动调整优先级设置,使作业恢复后在资源足够的情况下立即运行,提高工作流程效率。
本方法主要包括:(1)作业提交模块;(2)作业运行断点保存模块;(3)故障作业恢复运行模块;(4)被恢复作业优先级调整模块;
(1)作业提交模块:作业提交时,用户输入保存作业断点的位置,保存断点的个数,保存断点的时间间隔,作业提交脚本根据用户参数提交以可断定恢复模式提交一个并行作业;同时,作业提交模块还负责保存作业的其他参数信息,如并行作业所用资源(节点数、核数),作业运行所在队列,作业工作目录等,这些信息将在作业恢复时使用,以确保被恢复的作业与原作业一致;
(2)作业运行断点保存模块:作业运行过程中,断点保存机制将按照用户提交时设置的参数,以相应的时间间隔将断点保存在指定目录中;
(3)故障作业恢复运行模块:作业运行较长一段时间后,若某个计算节点故障导致作业失败退出,此时,用户可以从已保存的作业断点中选择一个(通常选择最近的一个)将作业从该点恢复,被恢复的作业将读取作业提交时保存的原作业参数信息,以相同的参数重新提交到队列中;
(4)被恢复作业优先级调整模块:被恢复的作业被重新提交的作业队列后,通常需要重新排队等待运行。为了避免一个作业重复排队,我们提供了恢复作业优先级自动调整至最高,则被恢复作业在资源足够时可以直接运行。
允许用户在作业提交时设置相应的作业断点保存方式,在作业由于计算节点故障时,用户可以选择从最近的断点将作业恢复至其他计算节点继续运行,从而为用户节省大量时间,提高工作效率。
附图说明
图1是作业保存断点及从断点恢复示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明做进一步地详细描述。
通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。而不需要从头开始计算。
本发明的显著特征是可以自动保存并行作业提交的相关参数,在作业运行过程中,自动保存作业断点,当并行作业所在某计算节点故障而导致作业运行失败时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。为了避免被恢复的作业重新在作业队列中排队等待大量时间,本发明还提供作业恢复后自动调整优先级方法,使作业恢复后在资源足够的情况下立即运行。本发明介绍的方法包括:(1)作业提交模块;(2)作业运行断点保存模块;(3)故障作业恢复运行模块;(4)被恢复作业优先级调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司;,未经浪潮电子信息产业股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510042605.1/2.html,转载请声明来源钻瓜专利网。