[发明专利]一种故障定位方法及服务器有效
申请号: | 201510979591.6 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105589776B | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 宋刚 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 故障 定位 方法 服务器 | ||
本发明提供一种故障定位方法及服务器,涉及计算机技术领域,用于在发生CATERR或IERR类故障时,快速准确地定位到故障所在。包括:检测到故障通知消息;故障通知消息指示已出现挂死类故障;获取错误数据,并在错误数据中确定与挂死类故障对应的超时类错误;在超时类错误的地址寄存器中读取错误地址;将错误地址与预存储的PCIe设备地址空间表中进行匹配;若PCIe设备地址空间表中存在与所述错误地址匹配的地址空间,则确定地址空间对应的PCIe设备为导致挂死类故障的故障源。
技术领域
本发明涉及计算机技术领域,尤其涉及一种故障定位方法及服务器。
背景技术
x86服务器运行过程中会出现CATERR(Catastrophic Error,灾难性错误)或IERR(Internal Error,灾难性错误),导致系统挂死,进而系统业务突然中断。由于CATERR死机故障发生后,很难得到完整的MCA(Machine Check Architecture,硬件故障检查架构)故障记录,另外即使收集到了MCA故障记录,根据大量的MCA寄存器数据无法快速准确地进行故障定位。
目前,对于CATERR或IERR故障定位的方法主要是依靠人工经验判断,或是运行诊断程序定位故障,或替换器件以确定发生故障的器件,都无法快速定位出故障。总之,现有技术对于CATERR或IERR引起的死机现象,故障定位的效率较低,严重影响用户体验。
发明内容
本发明提供一种故障定位方法及服务器,能够在出现CATERR或IERR时,快速准确地定位到故障所在,提高了故障定位的效率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,公开了一种故障定位方法,包括:
当服务器出现挂死类故障(即上述CATERR或IERR)时,服务器的MCA(MachineCheck Architecture,硬件故障检查架构)会向服务器的BMC(Baseboard ManagementController,基板管理控制器)发送指示已出现挂死类故障接的故障通知消息。需要说明的是,在计算机技术领域,通常将CATERR或IERR类故障称为3-Strike,出现CATERR或IERR类故障后,一般会在MCA的MCA Bank报告中生成针对3-Strike的MCA错误码,且MCA错误码的类型为timeout(超时)。
BMC接收到该故障通知消息后获取错误数据。实际上,就是BMC在上述MCA Bank中获取错误数据。所述错误数据用于记录服务器发生故障时产生的错误,所述超时类错误为所述服务器发生所述挂死类故障时产生的错误。
进而,BMC在所述错误数据中确定与挂死类故障对应的超时类错误。随后在所述超时类错误的地址寄存器中读取错误地址。
所述超时类错误,即CATERR或IERR类故障对应的错误数据为MCA Bank中的timeout类错误。具体实现中,可以遍历MCA Bank中的所有MCA错误,确定出类型标识为超时类(即标注为timeout)的错误为所述挂死类故障对应的超时类错误。当然,确定出的超时类错误不只一个。
接着,BMC将所述错误地址与预存储的PCIe设备地址空间表中的PCIe设备的地址空间进行匹配;所述PCIe设备地址空间表中记录有每一个PCIe设备与所述每一个PCIe设备的地址空间的对应关系。通常,服务器的BIOS进行初始化时会为每一个PCIe设备分配地址空间,在本发明实施例中,BIOS还会读取每一个PCIe设备的地址空间,并将每一个PCIe设备的地址空间发送给BMC,以便BMC生成PCIe设备地址空间表。这里所述的PCIe设备是所述服务器的PCIe设备。
若所述PCIe设备地址空间表中存在与所述错误地址匹配的地址空间,BMC则确定所述地址空间对应的PCIe设备为导致所述挂死类故障的故障源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510979591.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种动态调整内存监控阀值的方法
- 下一篇:一种故障检测的方法和装置