[发明专利]一种故障定位方法及服务器有效

专利信息
申请号: 201510979591.6 申请日: 2015-12-23
公开(公告)号: CN105589776B 公开(公告)日: 2019-07-23
发明(设计)人: 宋刚 申请(专利权)人: 华为技术有限公司
主分类号: G06F11/22 分类号: G06F11/22
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 故障 定位 方法 服务器
【说明书】:

发明提供一种故障定位方法及服务器,涉及计算机技术领域,用于在发生CATERR或IERR类故障时,快速准确地定位到故障所在。包括:检测到故障通知消息;故障通知消息指示已出现挂死类故障;获取错误数据,并在错误数据中确定与挂死类故障对应的超时类错误;在超时类错误的地址寄存器中读取错误地址;将错误地址与预存储的PCIe设备地址空间表中进行匹配;若PCIe设备地址空间表中存在与所述错误地址匹配的地址空间,则确定地址空间对应的PCIe设备为导致挂死类故障的故障源。

技术领域

本发明涉及计算机技术领域,尤其涉及一种故障定位方法及服务器。

背景技术

x86服务器运行过程中会出现CATERR(Catastrophic Error,灾难性错误)或IERR(Internal Error,灾难性错误),导致系统挂死,进而系统业务突然中断。由于CATERR死机故障发生后,很难得到完整的MCA(Machine Check Architecture,硬件故障检查架构)故障记录,另外即使收集到了MCA故障记录,根据大量的MCA寄存器数据无法快速准确地进行故障定位。

目前,对于CATERR或IERR故障定位的方法主要是依靠人工经验判断,或是运行诊断程序定位故障,或替换器件以确定发生故障的器件,都无法快速定位出故障。总之,现有技术对于CATERR或IERR引起的死机现象,故障定位的效率较低,严重影响用户体验。

发明内容

本发明提供一种故障定位方法及服务器,能够在出现CATERR或IERR时,快速准确地定位到故障所在,提高了故障定位的效率。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,公开了一种故障定位方法,包括:

当服务器出现挂死类故障(即上述CATERR或IERR)时,服务器的MCA(MachineCheck Architecture,硬件故障检查架构)会向服务器的BMC(Baseboard ManagementController,基板管理控制器)发送指示已出现挂死类故障接的故障通知消息。需要说明的是,在计算机技术领域,通常将CATERR或IERR类故障称为3-Strike,出现CATERR或IERR类故障后,一般会在MCA的MCA Bank报告中生成针对3-Strike的MCA错误码,且MCA错误码的类型为timeout(超时)。

BMC接收到该故障通知消息后获取错误数据。实际上,就是BMC在上述MCA Bank中获取错误数据。所述错误数据用于记录服务器发生故障时产生的错误,所述超时类错误为所述服务器发生所述挂死类故障时产生的错误。

进而,BMC在所述错误数据中确定与挂死类故障对应的超时类错误。随后在所述超时类错误的地址寄存器中读取错误地址。

所述超时类错误,即CATERR或IERR类故障对应的错误数据为MCA Bank中的timeout类错误。具体实现中,可以遍历MCA Bank中的所有MCA错误,确定出类型标识为超时类(即标注为timeout)的错误为所述挂死类故障对应的超时类错误。当然,确定出的超时类错误不只一个。

接着,BMC将所述错误地址与预存储的PCIe设备地址空间表中的PCIe设备的地址空间进行匹配;所述PCIe设备地址空间表中记录有每一个PCIe设备与所述每一个PCIe设备的地址空间的对应关系。通常,服务器的BIOS进行初始化时会为每一个PCIe设备分配地址空间,在本发明实施例中,BIOS还会读取每一个PCIe设备的地址空间,并将每一个PCIe设备的地址空间发送给BMC,以便BMC生成PCIe设备地址空间表。这里所述的PCIe设备是所述服务器的PCIe设备。

若所述PCIe设备地址空间表中存在与所述错误地址匹配的地址空间,BMC则确定所述地址空间对应的PCIe设备为导致所述挂死类故障的故障源。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510979591.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top