[发明专利]故障处理的方法、计算机系统、基板管理控制器和系统在审
申请号: | 202110559944.2 | 申请日: | 2017-01-19 |
公开(公告)号: | CN113407391A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 宋刚 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障 处理 方法 计算机系统 管理 控制器 系统 | ||
本发明公开了一种故障处理的方法、计算机系统、基板管理控制器和系统。该方法包括:根据可纠正错误的收集信息,确定发生可纠正错误风暴;关闭可纠正错误集合中的可纠正错误的产生模块的SMI使能,其中,该可纠正错误集合包括该可纠正错误风暴相关的可纠正错误;向BMC发送SMI使能关闭通知信息;接收该BMC在接收到该SMI使能关闭通知信息预定时间后发送的SMI使能打开通知信息;根据该SMI使能打开通知信息,打开已关闭的可纠正错误的产生模块的SMI使能。本发明实施例的故障处理的方法、BIOS、BMC和系统,能够有效地处理可纠正错误风暴。
本申请要求于2016年12月5日提交的、申请号为PCT/CN2016/108556、发明名称为“故障处理的方法、计算机系统、基板管理控制器和系统”的PCT申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及信息技术领域,并且更具体地,涉及一种故障处理的方法、计算机系统、基板管理控制器和系统。
背景技术
计算机系统在产生错误时,对于一般错误,系统会产生系统管理中断(SystemManagement Interrupt,SMI),再收集错误数据,根据错误数据进行进一步处理,以检测故障。
很多设备发生硬件故障(例如内存颗粒故障或内存数据线故障)后,可能会产生可纠正错误。可纠正错误是指该错误可以纠正,发生可纠正错误系统可以继续运行。然而,对于由硬件故障引起可纠正错误的情况,在硬件故障消除前,会产生持续的可纠正错误风暴。虽然系统仍然可以继续运行,但此种情况是一种带病运行状态,继续使用会导致系统性能下降以及发生严重错误的概率大大提升,此时应对故障模块立即告警并尽快更换。即,需要针对可纠正错误风暴收集错误数据,以检测出硬件故障。
然而,对于持续的可纠正错误风暴的情况,若通过SMI收集错误数据,系统可能会陷入SMI中断陷阱而表现为系统停顿死机。因此,如何有效地处理可纠正错误风暴,成为一个亟待解决的技术问题。
发明内容
本发明实施例提供了一种故障处理的方法、计算机系统、基板管理控制器和系统,能够有效地处理可纠正错误风暴。
第一方面,本发明实施例提供了一种故障处理的方法,包括:
根据可纠正错误的收集信息,确定发生可纠正错误风暴;
关闭可纠正错误集合中的可纠正错误的产生模块的系统管理中断SMI使能,其中,该可纠正错误集合包括该可纠正错误风暴相关的可纠正错误;
向基板管理控制器BMC发送SMI使能关闭通知信息;
接收该BMC在接收到该SMI使能关闭通知信息预定时间后发送的SMI使能打开通知信息;
根据该SMI使能打开通知信息,打开已关闭的可纠正错误的产生模块的SMI使能。
本发明实施例的故障处理的方法,通过对可纠正错误的产生模块的SMI使能的关闭和打开,能够在不发生中断陷阱的情况下收集错误数据,并且不会影响由非硬件故障引起的可纠正错误的产生模块,从而能够有效地处理可纠正错误风暴。
在一些可能的实现方式中,关闭可纠正错误集合中的可纠正错误的产生模块的系统管理中断SMI使能,包括:
关闭该可纠正错误集合中每一个可纠正错误的产生模块的SMI使能;或者,
关闭该可纠正错误集合中的部分可纠正错误的产生模块的SMI使能。
在一些可能的实现方式中,该SMI使能打开通知信息在该BMC接收到该SMI使能关闭通知信息预定时间后发送。
在一些可能的实现方式中,该预定时间为10分钟。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110559944.2/2.html,转载请声明来源钻瓜专利网。