[发明专利]一种面向多核的可重构容错系统及方法在审
申请号: | 201410101450.X | 申请日: | 2014-03-18 |
公开(公告)号: | CN103870353A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 张少林;杨孟飞;刘鸿瑾;肖爱斌;刘波;华更新;吴一帆;杨桦;刘淑芬;姜宏;王若川;吴军;谭彦亮;曹志威 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 安丽 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多核 可重构 容错 系统 方法 | ||
1.一种面向多核的可重构容错系统,其特征在于包括:处理器单元、容错控制系统和存储单元;其中:
处理器单元(PE,Processor Element)负责数据处理和命令执行;所述处理器单元采用四模冗余设计,即在同一芯片内部集成了四个完全一样的处理器单元;四个处理器单元在容错控制系统的控制下组成冗余容错模式,每个处理器单元接收相同的处理任务,在全局同步时钟的驱动下进行数据和命令的执行,处理得到的结果输出到容错控制系统的表决器模块进行数据比对;
容错控制系统,实现容错处理和故障修复功能,包括表决器、重构容错控制模块和I/O控制模块;表决器负责接收四个处理器单元的数据输出,利用纯硬件逻辑来实现四个处理器单元输出结果进行表决,并将表决结果输出给I/O控制模块和重构容错控制模块;
重构容错控制模块,根据表决器和四个处理器单元的状态来完成对故障核的隔离、修复和同步;当有一个处理器单元发生故障时,重构容错控制模块识别发生故障的处理器单元,通过切断其数据输入并置该处理器单元健康状态为无效,将有故障的处理器单元从系统任务处理中隔离出来;同时进行系统工作模式的降级,即从QMR降级到三模冗余模式(TMR)或从TMR降级到二模冗余模式(DMR),保证系统能够以一个较高的可靠性运行;当故障核修复完成后,在操作系统和重构容错控制模块的控制下,新的处理器单元重新加入到系统任务处理中,同时系统完成工作模式的升级;
I/O控制模块,负责控制四个处理器单元对外的输入输出接口;根据表决器提供的处理器单元的状态信息,在时钟信号驱动下,将外部任务数据输入分发给处于健康状态的处理器单元,并和表决器配合将正确的处理结果进行选通输出;输入控制为了保证四个处理器单元任务输入一致性,进而保证四个处理器单元处理节奏的同步;
存储单元,为四个处理器单元各自配备了独立的片外RAM和ROM,对重构控制系统配备独立的存储单元,实现了各个模块之间的低耦合设计,降低了故障传播的风险,提高系统可靠性。
2.根据权利要求1所述的面向多核的可重构容错方法,其特征在于实现过程如下:
(1)系统上电后初始化,工作在四模冗余的拜占庭容错模式,四个处理器单元A、B、C、D执行相同的任务,处理结果进行四模比对后进行输出;
(2)某一时刻处理器单元A自检出现故障,或者在结果比对中处理器单元A与其它三个处理器单元B、C、D比对不一致次数超出了规定次数,则认为处理器单元A陷入了失效状态,此时在容错控制系统的作用下,将处理器单元A与其它处理器单元B、C、D隔离开来,不再接收和执行处理任务,整个系统由之前的四模冗余的拜占庭容错模式,降级为三模冗余的TMR容错模式,实现了系统工作模式的降级容错;
(3)系统在TMR容错模式下工作,若此时处理器单元B发生故障,则容错控制系统将处理器单元B与处理器单元C、D隔离,处理器单元B不再接收处理任务,此时系统由之前的TMR容错模式降级为双模冗余的DMR容错模式,实现了在TMR容错模式下的系统降级容错;
(4)系统在DMR模式下工作,此时处理器单元C和处理器单元D接收相同的系统处理任务,处理完成后进行双模比对后输出;若在比对过程中出现处理器单元C和处理器单元D结果不一致,则此时系统无法得出正确的处理结果,系统陷入了完全故障状态。容错控制系统停止系统任务输入,控制整个系统进行全局复位或重配置,修复完成后系统进行初始化,四个处理器单元A、B、C、D重新组成四模冗余的拜占庭容错结构,进行工作。整个系统完成了DMR模式下的重构容错过错,并恢复到拜占庭容错模式下工作;
(5)系统重构升级过程,上述工作中出现故障的处理器单元A和处理器单元B被隔离后,在容错控制系统作用下进行故障修复,采用处理器单元复位或采用基于FPGA的在线部分重配置方法对故障处理器单元区域进行在线重构,将处理器单元从失效状态中恢复到健康的状态。修复完成的处理器单元A和处理器单元B自检通过后通知容错控制系统;
容错控制系统接到处理器单元B修复完成的通知后,根据系统处理任务,在下一个新任务执行之前,将处理器单元B重新加入到系统工作模块中,同时系统由双模冗余的DMR工作模式升级为三模冗余的TMR工作模式;
容错控制系统接到处理器单元A修复完成的通知后,根据系统处理任务,在下一个新任务执行之前,将处理器单元A重新加入到系统工作模块中,同时系统也就由三模冗余的TMR工作模式升级为四模冗余的拜占庭容错工作模式;
上述系统重构升级过程是在系统工作过程中根据处理器单元修复完成时机而实时进行的,一旦有处理器单元修复完成并通知容错控制系统后,容错控制系统便在下一个任务到来之前,将新修复完成的处理器单元加入到执行系统中,以实现系统的工作模式升级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410101450.X/1.html,转载请声明来源钻瓜专利网。