[发明专利]基于检查点的计算机的容错方法有效
申请号: | 201710369325.0 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107193692B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 严明玉;张志敏;吴军;龚健;张浩;孙凝晖 | 申请(专利权)人: | 中国科学院计算技术研究所;北京控制工程研究所 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 11280 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检查点 分块 用户进程 计算资源 保存 空闲 并行文件系统 超级计算机 进程状态 计算机 出错 带宽 恢复 | ||
本发明提供一种基于检查点的计算机的容错方法。该方法包括:在判断为执行检查点时,暂停用户进程;利用计算机中空闲的计算资源对所述用户进程的进程状态数据进行分块并计算每个分块的hash值,以确定需要保存的分块;在计算分块的hash值的过程中,将已经确定的需要保存的分块和相应的hash值进行保存,以形成用于恢复出错的用户进程的检查点文件。利用本发明的方法能够有效的利用超级计算机中空闲计算资源和并行文件系统的I/O带宽,从而缩短执行检查点和检查点卷回的时间。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于检查点的面向计算机(特别是超级计算机)的容错方法。
背景技术
随着信息技术的发展,超级计算机的节点和处理器数目在持续增加,性能也在呈倍增加,然而,据统计,整个超级计算机系统的平均故障间隔时间(MTBF,Mean TimeBetween Failure)却减少到了只有几个小时。例如,中国的天河2号超级计算机由16000个节点组成,每个节点有2颗基于Ivy Bridge-E Xeon E5 2692处理器和3个Xeon Phi协同处理器,累计共有32000颗Ivy Bridge处理器和48000个Xeon Phi协同处理器,总计有312万个计算核心。假如天河2号超级计算机中的每个处理器的MTBF是876000小时(100年),那么整个天河二号的MTBF是876000/(48000+32000)=8.76个小时。而且,内存容量的增加也会导致系统出错概率升高,超大规模计算机系统每1到3个小时就会出现软件或者硬件错误。在未来的10年间,CPU和内存的短暂性错误会增加30倍,因此,对于超大规模计算机系统,保证其可靠性越发重要。
目前,基于检查点的容错技术是保证大规模计算机系统可靠性的主要技术,该技术将正在运行的进程的状态数据保存到永久存储中,然后在必要的时候使用保存的状态数据将当前的进程状态卷回到执行检查点的时刻,被保存的进程状态数据称为检查点文件。检查点技术的开支主要包括保证所有进程处于检查点全局一致状态的时间、将庞大的检查点文件保存到永久存储中的时间和检查点的设置频率等。检查点文件越大,检查点设置频率越高,检查点技术的开支就越大。大规模计算机系统会由于周期性地执行检查点导致性能下降超过50%并且额外增加80%的I/O访问。例如,将由128000个处理器组成的BlueGene/L超级计算机中所有RAM的数据(1.6PB)保存到并行文件系统需要大约20分钟的时间。随着计算机系统的规模增加,使用的部件增多,整个系统的MTBF会急剧降低,系统需要更频繁地执行检查点。检查点的时间开支将会主导用户程序的执行时间,导致计算机系统的性能进一步下降。
此外,在当前的大规模计算机系统中,在执行检查点时,由于完整的检查点文件能达到PB级别的大小,这些检查点文件通常被写到永久存储中,例如,本地磁盘或者RAID5设备等,甚至通过网络发送到远程存储设备上,会造成大量集中的I/O访问或者网络传输。而且,在执行检查点过程中,大部分计算资源处于空闲状态。由于检查点文件特别大,存储I/O带宽或者网络传输带宽远远小于系统内存大小,整个系统的性能就会极大下降。并且,当节点出错的情况下,使用检查点文件卷回或恢复到出错前的状态的时,需要从并行文件系统读取整个检查点文件到内存中,同样会发生大量集中的I/O访问或者网络传输,同样也会造成超级计算机的性能下降。因此,随着超大规模计算机系统的发展,检查点技术的性能成为非常严峻的问题。
现有技术的检查点方法通常是基于操作系统提供的页保护机制。该方法以页大小作为进程状态数据的分块大小,这种方式会导致检查点判断进程状态数据修改内容的粒度较大,并且基于页保护机制的检查点需要操作系统和硬件支持,该检查点方法使用操作系统的写时拷贝技术也会导致父子进程抢夺计算资源和内存资源。该方法没有利用执行检查点过程中的空闲计算资源,并且也没有能有效利用并行文件系统的I/O带宽,不能满足在出错情况下快速卷回和降低卷回的并行文件系统的I/O带宽要求。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种基于检查点的计算机的容错方法,以缩短检查点文件保存和卷回的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;北京控制工程研究所,未经中国科学院计算技术研究所;北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710369325.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:阵列基板及其制作方法和显示面板
- 下一篇:消防设备用的支腿组件