[发明专利]大规模异构并行计算的容错方法有效
申请号: | 201210442295.9 | 申请日: | 2012-11-06 |
公开(公告)号: | CN102929738A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 陈德训;刘鑫;李芳;徐金秀 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 骆苏华 |
地址: | 214083 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 并行 计算 容错 方法 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种大规模异构并行计算的容错方法。
背景技术
大规模异构高性能计算机系统是未来极大规模并行计算的重要发展方向,与传统单核/多核处理器计算机系统相比,大规模异构高性能计算机系统以异构处理器为基础,处理器核数急剧增加,系统架构和访存方式发生重大变化。在大规模异构计算机系统环境下,如何保证大规模并行计算的可靠性和稳定性是关键问题,而并行算法级的容错机制和间断处理机制是关键技术之一。需要设计高效的算法级并行容错方法,以充分利用计算资源,减少故障恢复时间,提高并行计算的可靠性。
目前,在并行算法级的容错机制和间断处理机制方面,主要应用领域的并行计算软件都设计和开发了大规模并行算法的任意可变并行规模的保留恢复功能,能够保证算法在MPI级(“消息传递接口”,Message Passing Interface)的自动容错能力,但在众核并行层次上,因为GPU(“图形处理器”,GraphicProcessing Unit)、Cell处理器等架构的特殊性和复杂性,很少有应用程序考虑众核一级的容错功能实现,在计算过程中不能自动检测大规模异构计算机系统在处理器核层次的硬件故障,只能从最终的计算结果判断计算是否正常可靠,难以保证大规模异构并行计算的可靠性和稳定性。对于某些计算时间较长的中大规模众核并行课题而言,经常会出现课题运行挂起的情况,需要人工干预后重新提交。
以航天飞行器全流域数值模拟应用领域为例,据目前可查文献,现有的异构众核并行只实现了中间计算结果的记录,即实现一般的保留恢复功能,没有考虑到众核级的容错功能实现,在计算过程中不能自动检测大规模异构计算机系统在处理器核层次的硬件故障,只能从最终的计算结果判断计算是否正常可靠。
公开号为CN101625736A的中国专利申请中,公开了一种分布式计算环境下并行进化算法的容错方法,但该申请也未解决上述技术问题。
发明内容
本发明所要解决的技术问题是如何充分利用计算资源,减少故障恢复时间,保证大规模并行计算的可靠性和稳定性。
为了解决上述问题,本发明提供了一种大规模异构并行计算的容错方法,适用于通过多个时间步迭代计算的并行计算课题,其中,每个时间步的迭代计算包括多个核心计算模块,包括:
对每个时间步的每个核心计算模块,进行以下处理:
将所述计算课题的计算数组的内容赋值给所述计算数组的备份数组;
完成核心计算模块的计算;其中,所述完成核心计算模块的计算包括:统计可用处理器核数,以获得第一处理器核数;所述可用处理器核并行运算所述核心计算模块;再次统计可用处理器核数,以获得第二处理器核数;
比较所述第一处理器核数和所述第二处理器核数,若所述第二处理器核数小于所述第一处理器核数,则将所述备份数组的内容赋值给所述计算数组,并重新完成核心计算模块的计算,直至所述第一处理器核数与所述第二处理器核数一致。
可选的,在开始每个时间步的迭代计算之前,还包括:申请所述计算数组的备份数组。
可选的,在所述统计可用处理器核数,以获得第一处理器核数之后,还包括:
按照所述第一处理器核数进行众核任务分解。
可选的,所述重新完成核心计算模块的计算包括:
重新统计可用处理器核数,以获得第一处理器核数;
按照所述第一处理器核数进行众核任务分解;
所述可用处理器核并行运算所述核心计算模块;
再次统计可用处理器核数,以获得第二处理器核数。
可选的,若所述第一处理器核数与所述第二处理器核数一致,则统计完成所述核心计算模块的每个处理器核所用的时间。
可选的,还包括:
在所述时间步的所有核心计算模块都完成之后,基于完成各核心计算模块的各处理器核所用的时间,对各处理器核的计算状态进行统计和预警。
可选的,所述对各处理器核的计算状态进程统计和预警包括:
将所述完成各核心计算模块的各处理器核所用的时间与各处理器的预设阈值做比较;
若某处理器核完成核心计算模块所用的时间大于预设阈值时,对该处理器核进行统计并预警。
可选的,所述预设阈值为平均计算时间的150%。
与现有技术相比,本发明的技术方案具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210442295.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种拾料区域面积固定的数控裁床拾料台装置
- 下一篇:干衣装置