[发明专利]一种基于确定性重放的处理器整体故障检测系统与方法有效
申请号: | 201110460642.6 | 申请日: | 2011-12-31 |
公开(公告)号: | CN102591763A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 李磊;陈云霁;孙国庆 | 申请(专利权)人: | 龙芯中科技术有限公司 |
主分类号: | G06F11/267 | 分类号: | G06F11/267 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 确定性 重放 处理器 整体 故障 检测 系统 方法 | ||
技术领域
本发明涉及一种处理器芯片设计与检测技术领域,特别地,涉及一种基于确定性重放的处理器整体故障检测系统与方法。
背景技术
越来越大的晶体管规模、越来越低的芯片电压、越来越小的工艺技术使得处理器越来越容易产生故障。一般来说,一个故障是指在处理器(或可称为处理器芯片)使用过程中一个或者多个逻辑门得到了错误的结果。故障产生的原因可能足由于处理器制造时的错误、处理器提前到达使用寿命、外部射线对处理器造成的辐射等等。
虽然已有的扫描链技术可以根据故障模型去检测处理器中的故障,但是仅限于已有的故障模型下面的故障。然而,随着处理器的高速发展,各种低功耗技术、高速接口的应用,越来越多的故障模型被提出,即使扫描链技术检测对某些故障模型达到了100%的覆盖率,但一些其他故障模型下、或者没有固定故障模型的故障仍然无法被检测出来。另外,一些测试完成之后才发生的故障,如处理器提早到了使用寿命,同样无法被检测出来。
由于故障会使得处理器的一些逻辑产生错误,其很有可能导致程序在处理器上执行错误。错误的程序执行结果会极大的降低处理器的可靠性,甚至会导致整个系统崩溃。所以,如何尽可能多的检测出处理器产生的所有故障已经成为当今处理器越来越重视的问题。
已有方法包括对处理器核做冗余检测,其检测处理器核内的那些测试没有检测到的故障。具体来说,对每一个处理器核都安排一个冗余的处理器核,两个处理器核同时执行同样的程序,并比较两个执行的结果,如果两次结果不一样,那么两个处理器核必定有一个有故障。虽然这些方法可以检测到处理器核内部的所有故障,但是这些方法无法检测到片上网络、二级缓存、内存控制器等非处理器核内的错误。而在一个成熟处理器芯片中,这些非处理器核占用了超过整个芯片50%的面积,所以一种能够检测整个处理器的故障的方法是亟待提出的。
发明内容
本发明的目的在于提供一种基于确定性重放的处理器整体故障检测系统与方法,其通过确定性重放来检测整个处理器中的故障,使得整个处理器中的故障能够得到检测,保证了整个处理器芯片的可靠性。
为实现本发明目的而提供的一种基于确定性重放的处理器整体故障检测系统,包括一检测多核处理器,以及一冗余比较多核处理器;
还包括记录模块,与所述检测多核处理器中每个处理器核相对应的多个异或模块-1,重放模块,与所述冗余比较多核处理器中每个处理器核相对应的多个异或模块-2和多个比较模块,其中:
所述记录模块,用于在所述检测多核处理器执行一并行程序时,记录所有被检测的处理器核之间的信息交互,并将记录下来的交互传递信息传输出去;
所述异或模块-1,用于在所述检测多核处理器执行所述并行程序时,收集所述检测多核处理器中每个处理器核对每一条指令的执行,记录下每一条指令执行的结果,并将所有结果通过异或的方式进行处理,得到处理后的异或结果-1并传输出去;
所述重放模块,用于根据记录模块记录下来的处理器核之间的交互传递信息,在所述冗余比较多核处理器中确定性重放执行所述并行程序;
所述异或模块-2,用于在所述冗余比较多核处理器根据重放模块中的交互传递信息进行确定性重放执行所述并行程序,收集所述冗余比较处理器核中对每一条指令的执行,记录下每一条指令执行的结果,并将所有结果通过异或的方式进行处理,得到处理后的异或结果-2传输给比较模块;
所述比较模块,用于读入所述异或模块-1记录的异或结果-1,并将异或结果-1同重放执行的异或结果-2进行比对,通过比对的结果来判断两次执行中所述检测多核处理器和/或冗余比较多核处理器是否发生或者触发故障。
较优地,所述的基于确定性重放的处理器整体故障检测系统中,一非处理器核设备与所述一组需要被检测的处理器核组组成一检测多核处理器,完成并行程序的指令完整执行过程;或者与所述一组用来做比对的冗余的处理器核组组成一冗余比较多核处理器,完成并行程序的指令完整执行过程;
其中,所述一组需要被检测的处理器核组与所述一组用来做比对的冗余的处理器核组具有相同个数的多个处理器核。
较优地,所述非处理器核设备,包括二级缓存、片上网络、内存控制器等。
较优地,所述每一异或模块-1一体化地配置在相应的每一个需要被检测的处理器核里面;
所述每一异或模块-2一体化地配置在冗余比较多核处理器中每一个用来做比对的冗余的处理器核里面。
较优地,所述交互传递信息包括时间序关系和执行序关系;
所述记录模块包括采样模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙芯中科技术有限公司,未经龙芯中科技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110460642.6/2.html,转载请声明来源钻瓜专利网。