[发明专利]基于检查点的故障排除方法和装置无效
申请号: | 201110265365.3 | 申请日: | 2011-09-08 |
公开(公告)号: | CN102263671A | 公开(公告)日: | 2011-11-30 |
发明(设计)人: | 戴荣;马少杰;王璟;许涛;李斌;李程 | 申请(专利权)人: | 曙光信息产业股份有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京市德恒律师事务所 11306 | 代理人: | 陆鑫;高雪琴 |
地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 检查点 故障 排除 方法 装置 | ||
技术领域
本发明总体上涉及网络领域,更具体地,涉及基于检查点的故障排除方法和装置。
背景技术
在目前的网络硬件配置中,集群环境下节点众多,由于硬件故障导致程序停止运行的风险大大增加。有许多软件可以做到自动机型故障检测,屏蔽硬件故障信息,对作业进行自动迁移,但是这样的软件收费昂贵,用户难以接受。
此外,出现了利用高可用集群来屏蔽硬件故障的技术,然而,这种技术需要投入大量的备用机器来防止主机硬件故障。此时用户程序自动切换需要额外的配置,切换过程中将产生作业停顿,增加作业崩溃风险,增加用户额外投资费用。
发明内容
为解决上述问题,本发明提供了一种基于检查点的故障排除方法,包括以下步骤:按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,停机检查故障问题,其中,当故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
其中,当用户作业没有异常中断时,用户作业完成。
其中,当故障无法排除时,退出用户作业并迁移至其他节点继续运行。
其中,在将用户作业按时间点进行保存的步骤之前,提交用户作业,并在用户作业开始时设置作业参数和迁移参数。
此外,本发明还提供了一种基于检查点的故障排除装置,包括:检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;停机模块,用于在用户作业异常中断时,停机检查故障问题,其中,还包括恢复模块,用于在故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
其中,该装置还包括:迁移模块,用于在故障无法排除时,退出用户作业并迁移至其他节点继续运行。
其中,该装置还包括:提交模块,用于提交用户作业;以及参数设置模块,用于在用户作业开始时设置作业参数和迁移参数。
附图说明
当结合附图进行阅读时,根据下面详细的描述可以更好地理解本发明。应该强调的是,根据工业中的标准实践,各种部件没有被按比例绘制。实际上,为了清楚的讨论,各种部件的尺寸可以被任意增加或减少
图1示出了根据本发明的示例性实施例的基于检查点的故障排除方法的流程图。
具体实施方式
为了实施本发明的不同部件,以下描述提供了许多不同的实施例或示例。以下描述元件和布置的特定示例以简化本发明。当然这些仅仅是示例并不打算限定。再者,以下描述中第一部件形成在第二部件上可包括其中第一和第二部件以直接接触形成的实施例,并且也可包括其中额外的部件形成插入到第一和第二部件中的实施例,使得第一和第二部件不直接接触。为了简明和清楚,可以任意地以不同的尺寸绘制各种部件。
本发明大体的技术方案思路如下:
1.利用Checkpoint(检查点)/Restart(重启)技术实现硬件故障排除,异常中断后利用检查点信息进行重新启动并继续执行任务。
2.利用Checkpoint/Restart技术实现硬件故障屏蔽,机器故障后将用户作业迁移至新的节点上继续进行。
图1示出了根据本发明的示例性实施例的基于检查点的故障排除方法的流程图。如图1所示,本发明提供了一种基于检查点的故障排除方法,包括以下步骤:S101,提交用户作业,并在用户作业开始时设置作业参数和迁移参数;S103,按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,停机检查故障问题,其中,当故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
优选地,当用户作业没有异常中断时,用户作业完成。
优选地,当故障无法排除时,退出用户作业并迁移至其他节点继续运行。
此外,本发明还提供了一种基于检查点的故障排除装置(未示出),包括:检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;停机模块,用于在用户作业异常中断时,停机检查故障问题,其中,还包括恢复模块,用于在故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。
优选地,该装置还包括:迁移模块,用于在故障无法排除时,退出用户作业并迁移至其他节点继续运行。
优选地,该装置还包括:提交模块,用于提交用户作业;以及参数设置模块,用于在用户作业开始时设置作业参数和迁移参数。
具体地,可以按照如下流程进行处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业股份有限公司,未经曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110265365.3/2.html,转载请声明来源钻瓜专利网。