[发明专利]面向进程失效错误的并行通信库状态自恢复方法有效
申请号: | 201310096920.3 | 申请日: | 2013-03-25 |
公开(公告)号: | CN103150236A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 廖湘科;卢宇彤;谢旻;所光;曹宏嘉;蒋艳凰;董勇;陈海涛 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F11/20 | 分类号: | G06F11/20 |
代理公司: | 湖南兆弘专利事务所 43008 | 代理人: | 赵洪;谭武艺 |
地址: | 410073 湖南省长沙市砚瓦池正*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向进程失效错误的并行通信库状态自恢复方法,其实施步骤如下:作业管理进程通过节点管理进程派生计算进程执行非通信本地计算,作业管理进程监控进程失效情况并通过节点管理进程向计算进程发送失效消息;计算进程通过查询共享内存的匹配本次发生失效的计算进程数目和其在全局通信器中的失效进程列表,从而执行针对进程失效错误的错误恢复操作,把失效的并行程序恢复到一个一致的状态。本发明可以使并行程序遇到失效进程错误不会中断退出、不需要作业管理系统重新加载整个失效的并行程序、能够自动恢复失效计算进程,具有容错能力强、计算效率高的优点。 | ||
搜索关键词: | 面向 进程 失效 错误 并行 通信 状态 恢复 方法 | ||
【主权项】:
一种面向进程失效错误的并行通信库状态自恢复方法,其特征在于实施步骤如下:1)启动作业管理进程和节点管理进程;用户向作业管理进程提交并行任务,作业管理进程根据所述并行任务的并发度分配计算节点并通知节点管理进程;然后作业管理进程实时监控计算进程是否发生失效,如果发生失效则作业管理进程把失效信息发送给节点管理进程;2)节点管理进程收到来自作业管理进程的派生计算进程的请求,针对每个需要派生的计算进程,节点管理进程利用操作系统提供的共享内存创建系统调用创建一块共享内存,把所述共享内存的初始值设为全0,创建并行作业的计算进程并把共享内存的标识符赋值给计算进程的指定环境变量;计算进程创建成功后,节点管理进程实时监控是否收到来自作业管理进程的失效通知消息,如果收到失效通知消息,则节点管理进程通过共享内存向计算进程发送失效通知消息;3)计算进程首先初始化并行通信库,根据所述指定环境变量查询得到共享内存的标识符,根据共享内存的标识符通过操作系统提供的共享内存绑定的系统调用绑定到该共享内存,然后执行本地计算;在计算过程中,计算进程调用并行通信库的消息传递接口进行消息传递、检测消息的到达和传输状态;同时,计算进程通过检测绑定的共享内存判断是否有进程失效发生,如果有进程失效发生则转入步骤4);4)计算进程通过查询共享内存的匹配本次发生失效的计算进程数目和其在全局通信器中的失效进程列表,根据所述本次发生失效的计算进程数目和其在全局通信器中的失效进程列表执行针对进程失效错误的错误恢复操作,恢复计算进程,继续执行本地计算。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310096920.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种乘用车发动机顶置空气滤清器
- 下一篇:摩托车发动机镁合金左曲轴箱盖