[发明专利]一种检测多处理器系统故障的方法、系统和装置无效
申请号: | 200810089364.6 | 申请日: | 2008-04-15 |
公开(公告)号: | CN101334744A | 公开(公告)日: | 2008-12-31 |
发明(设计)人: | 薛蕴全;唐锋;武绍芸;邓亚 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/00 | 分类号: | G06F11/00 |
代理公司: | 北京挺立专利事务所 | 代理人: | 叶树明 |
地址: | 518129广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 处理器 系统故障 方法 系统 装置 | ||
技术领域
本发明涉及通信技术领域,特别涉及一种检测多处理器系统故障的方法、系统和装置。
背景技术
多处理器系统是指具备多个微处理器的计算机系统,当多个微处理器集成在同一个集成电路基片上时也称为多处理器系统。在多处理器系统中,由于多个微处理器能够同时进行计算处理,所以其处理能力比普通单处理器的计算机要强大很多。
对于多处理器系统来说,系统中的任何一个处理器发生故障都可能影响整个系统的正常运行。尤其随着多处理器系统中处理器数量的增加,系统发生故障的概率也将随之增加,而对于多处理器系统而言,系统中任何一个处理器发生故障都可能影响整个系统的正常运行。在这种情况下,对多处理器系统进行故障管理就是非常必要的了。
对多处理器系统进行故障管理的主要内容包括故障检测和故障恢复。故障检测是指在某个或某些处理器发生故障之后,感知并提取故障处理器的位置和故障的特征信息,以便掌握多处理器系统的当前运行情况,并及时采取应对措施。而故障恢复,则是在系统发生故障后,通过各种手段使得系统能够继续维持运行。
目前常见的一种故障检测方法是,发生故障的微处理器由于运行状态异常,而触发硬件的中断或异常,然后通过多处理器系统中的专门硬件(包括但不限于中断控制器、互联网络等),将中断或异常信息通知到专门的硬件单元和/或其他处理器上,完成故障的报告过程。其中,中断是计算机系统中一种打断软件正常运行过程、执行特定软件功能的常用方法,可以由软件或外部硬件触发,常用于处理硬件相关的事件或需要快速响应的事件。异常与中 断类似,但主要由微处理器内部的软件或硬件触发,常用于响应处理器的不正常状态。当处理器发生软硬件故障时,可能因为执行不正确的指令、访问错误的存储区域、硬件看门狗超时等原因触发中断或异常。
目前常用的另一种故障检测方法是,发生故障的微处理器由于运行状态异常,而触发硬件的中断或异常,该异常由故障处理器本身的中断或异常处理程序处理并提取相应的故障信息,然后通过系统互联发送到特定的硬件单元或其他处理器,完成故障的报告过程。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:现有技术的故障检测机制必须设置专门的硬件产生中断或异常信号,并将中断或异常信号送到特定的硬件单元或处理器上,因此其故障检测的能力和范围依赖于该硬件的设计。而硬件一般只能检测少数几种简单的故障,对于多处理器系统来说,该硬件比较复杂,而且当处理器发生比较严重的软件故障或硬件故障时,可能因无法执行中断或异常处理程序而无法完成故障检测。另外由于故障检测依赖于特定硬件,使得故障检测的方法无法移植到不同的系统中,且检测方法无法升级,系统投入运行后如果发现未知的故障模式,可能必须改动硬件才能检测出来,代价较大。
发明内容
本发明实施例提供一种检测多处理器系统故障的方法、系统和装置,以实现主要依靠软件进行故障检测,提高多处理器系统的故障检测能力,扩大多处理器系统的检测范围。
为达到上述目的,本发明实施例一方面提供一种检测多处理器系统故障的方法,包括:
多处理器系统中被选定的主处理器生成检测指令,并向所述主处理器自身和/或至少一个从处理器发送所述检测指令;
所述主处理器接收所述主处理器自身和/或至少一个从处理器发送的检测结果;其中,所述检测结果,是接收到所述检测指令的处理器执行所述检测指令得到的结果;
所述主处理器分析所述检测结果,根据所述检测结果,判断发送所述检测结果的处理器是否工作正常,若否,提取工作不正常的处理器的故障信息。
另一方面,本发明实施例还提供一种检测多处理器系统故障的系统,包括:主处理器和从处理器,
所述主处理器,包括:指令生成模块:用于多处理器系统中被选定的主处理器生成检测指令;指令发送模块:用于向所述主处理器自身和/或至少一个从处理器发送所述检测指令;检测结果接收模块:用于所述主处理器接收所述主处理器自身和/或至少一个从处理器发送的检测结果;故障判断模块:用于分析所述检测结果,根据所述检测结果,判断发送所述检测结果的处理器是否工作正常,若否,提取工作不正常的处理器的故障信息。
所述从处理器,包括:指令接收模块:用于接收所述主处理器发送的检测指令,故障检测模块:用于执行所述检测指令进行故障检测;检测结果发送模块:用于执行所述检测指令后向所述主处理器返回检测结果。
再一方面,本发明实施例还提供一种主处理器,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810089364.6/2.html,转载请声明来源钻瓜专利网。