[发明专利]一种面向数据并行计算容错的快速并行复算方法有效
申请号: | 201510415605.1 | 申请日: | 2015-07-15 |
公开(公告)号: | CN105022673B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 窦万峰;苗守帅 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李媛媛 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 并行 计算 容错 快速 复算 方法 | ||
本发明属于并行系统容错的技术领域,涉及利用冗余计算对计算任务进行检错和纠错进行的并行复算方法,特别提出基于出错任务对应的数据块进行逻辑划分及二次调度的快速并行复算方法。包括:对数据块的计算结果进行基于冗余计算策略的错误检测;基于多线程的线程检错和进程复算纠错进行的复算方法。本发明的方法完全可应用于大规模海量数据的并行数字地形分析的高性能计算的容错处理场合,例如,规则格网并行插值、坡度坡向并行计算、洼地填平并行计算等地形因子提取;可以应用于地理信息处理的高性能计算;也可以应用于基于地理信息的空间决策分析和数据挖掘等应用场合,提高处理效率。
技术领域
本发明属于并行计算系统容错的技术领域,涉及利用冗余策略对出错的计算任务进行快速纠错,特别提出一种面向数据并行计算容错的快速并行复算方法。
背景技术
并行计算机系统的容错处理是一个不容忽视的问题。一个并行系统是容错的,指的是它的程序在出现逻辑故障的情况下仍然能够正确的运行和保证得到正确的结果。
近年来,随着计算机系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都日渐突出。并行计算机系统的可靠性反映了系统为用户提供预定服务的能力,可靠性的高低与系统故障率紧密相关。并行计算容错技术的目的在于降低并行计算机系统的故障率,或者在一定故障率的前提下,提高系统能正确提供服务的概率。
容错技术虽然多样,但具有一个共同的本质,就是进行一定程度的冗余计算。所谓冗余计算是指在对关键任务进行多副本的同步计算。最基本的冗余包括时间冗余和空间冗余。时间冗余直观地讲就是复算,包括重复进行的计算和重复进行的通信,以及对多次计算结果的比较。空间冗余又可以细分为软件冗余、硬件冗余和信息冗余。软件冗余就是设置冗余的软件模块;硬件冗余就是设置冗余的硬件部件;而信息冗余就是通过使用附加的数据来描述某些内部状态,通过对这些附加数据的考察就可以实现检错和容错。
通过对现有的研究工作分析研究发现,目前国内外已有的并行系统的成果主要基于硬件冗余和软件冗余机制,且主要用于故障检测,而针对故障恢复机制的研究还很少。当前主流的软件容错策略面向时间冗余的方法,导致计算失败的节点需要重新进行任务恢复,由于其恢复时间大于前一个检查点和故障发生时刻之间的时间间隔,从而导致具有依赖关系的任务处于长时间的等待,而这些问题导致了并行效率降低以及计算资源的浪费。
发明内容
本发明针对上述问题,提出了一种基于多线程技术的检错与纠错同时进行的错误快速恢复方法。
本发明的一种面向数据并行计算容错的快速并行复算方法包括:
步骤1,读入数据与数据分发:首先主节点的进程读入数据,按照数据划分策略,启动相应的线程;然后,每个线程依据二次冗余计算策略,将每个数据块分发给两个从节点进程;
步骤2,冗余计算:从节点的每个进程按序计算某个数据块的逻辑子块,完成一个逻辑子块后,发送结果给主节点的线程,若是最后一个逻辑子块,则线程结束该数据块的计算,否则,继续执行下一个逻辑子块;
步骤3,错误检测:主节点上的线程接收到两个从节点的计算进程的逻辑子块的计算结果后,立即进行该子块的结果一致性检查;若两个子块的计算结果一致,则执行步骤6,线程融合子块结果,否则计算结果有错,则进入步骤4步启动复算过程。若该子块是该数据块的最后一个子块,则进入步骤7进行结果保存,否则线程等待接收下一个子块的计算结果;
步骤4,重分发子块:线程检测到某个数据块的逻辑子块的结果有错,则立即分发该出错的逻辑子块给一个从节点的计算进程,然后等待结果;
步骤5,子块复算:从节点的进程接收到逻辑子块后,发起该子块的计算过程;计算完成后,进程将子块的结果发给线程;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510415605.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空调测试方法及功能测试系统
- 下一篇:虚拟机快照管理方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置