[发明专利]一种支持并行作业断点恢复的作业提交和恢复方法在审
申请号: | 201510042605.1 | 申请日: | 2015-01-28 |
公开(公告)号: | CN104536770A | 公开(公告)日: | 2015-04-22 |
发明(设计)人: | 张云 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F11/14 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 并行 作业 断点 恢复 提交 方法 | ||
1.一种支持并行作业断点恢复的作业提交和恢复方法,其特征在于,通过一个作业提交模块,提交一个可从断点恢复的作业,作业开始运行后,将根据用户设置自动每隔一段时间保存一个断点,当作业由于计算节点故障失败退出时,用户可以选择最近的断点将作业恢复,被恢复的作业将避开故障节点重新分配在其他节点上继续运行。
2.根据权利要求1所述的方法,其特征在于,还提供了作业恢复后自动调整优先级设置,使作业恢复后在资源足够的情况下立即运行。
3.根据权利要求2所述的方法,其特征在于,
主要包括:(1)作业提交模块;(2)作业运行断点保存模块;(3)故障作业恢复运行模块;(4)被恢复作业优先级调整模块;
(1)作业提交模块:作业提交时,用户输入保存作业断点的位置,保存断点的个数,保存断点的时间间隔,作业提交脚本根据用户参数提交以可断定恢复模式提交一个并行作业;同时,作业提交模块还负责保存作业的其他参数信息,如并行作业所用资源,作业运行所在队列,作业工作目录等,这些信息将在作业恢复时使用,以确保被恢复的作业与原作业一致;
(2)作业运行断点保存模块:作业运行过程中,断点保存机制将按照用户提交时设置的参数,以相应的时间间隔将断点保存在指定目录中;
(3)故障作业恢复运行模块:作业运行一段时间后,若某个计算节点故障导致作业失败退出,此时,用户可以从已保存的作业断点中选择一个将作业从该点恢复,被恢复的作业将读取作业提交时保存的原作业参数信息,以相同的参数重新提交到队列中;
(4)被恢复作业优先级调整模块:被恢复的作业被重新提交的作业队列后,恢复作业优先级自动调整至最高,则被恢复作业在资源足够时可以直接运行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司;,未经浪潮电子信息产业股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510042605.1/1.html,转载请声明来源钻瓜专利网。