[发明专利]一种服务器PCIe设备故障记录的系统及方法在审
申请号: | 201811434099.0 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109542752A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 孙一心 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 王汝银 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障记录 黑盒 故障位置信息 寄存器 服务器 配置空间寄存器 寄存器读取 日志保留 信息漏失 触发 日志 分析 中断 监控 检测 记录 | ||
本发明提出了一种服务器PCIe设备故障记录的系统及方法,包括,当BIOS单元监控到PCIe设备发生UCE故障时,会触发UCE中断,BIOS单元判断故障的位置,将PCIe设备配置空间寄存器中的AER capability寄存器读取出来,并将所述AER capability寄存器的值以及故障位置信息通过impi命令发送给BMC;BMC接收所述AER capability寄存器的值以及故障位置信息,并将所述AER capability寄存器的值以及故障位置信息记录到黑盒日志中。黑盒日志保留有用的信息用于分析定位,同时在黑盒内运行其故障,以判断故障的破坏程度。采用本发明的故障记录方法,故障记录详细,而且有利于故障的进一步分析,不会导致信息漏失,同时黑盒可以检测故障的破坏程度。
技术领域
本发明涉及服务器PCIe设备故障领域,具体提供了一种服务器PCIe设备故障记录的系统及方法。
背景技术
PCIe设备是服务器最常见的外设接口之一,大量的部件包括网卡、Raid卡、FPGA卡、GPU卡、NVME硬盘等等都是通过PCIe接口作为外设设备应用在服务器系统当中。当前PCIe设备已经经历了Gen1、Gen2、Gen3三代接口,Gen4也即将大量量产应用。目前最常见的设备是应用PCIe Gen3接口,接口速率高达8Gb/s,接口速率快,对系统兼容性和稳定性要求很高。如何保证PCIe设备在服务器系统中的稳定性和可用性是服务器系统设计的难点之一。PCIe设备在系统中的故障包括uncorrectable fatal error、correctable non-fatalerror和correctable error三类。当发生correctable non-fatal error和correctableerror时,服务器系统往往有性能降低等现象,而且在某些场景下,这两类错误和uncorrectable fatal error是有联系的;当出现uncorrectable fatal error时,服务器系统往往会发生宕机和重启等现象,验证影响线上业务的运行。
除了在设计中follow各种spec之外,能快速定位PCIe设备的故障原因也很重要。PCIe设备的配置空间中包含多个capability,其中AER(advanced error reporting)这个capability中的uncorrectable error status register、correctable error statusregister、header log register等非常重要,往往可以直接指明PCIe报错的原因。可以在出现问题的时候通过带外IPMI命令直接读取到上述寄存器,但是同样可以通过服务器系统中的BMC黑盒日志进行记录,当发生故障时,直接调取BMC的黑盒日志进行debug处理。目前在黑盒日志中往往只是记录某一个地址的PCIe设备发生了故障,并记录大概的故障类型,如uncorrectable fatal error、correctable non-fatal error和correctable error等,不会对故障现象进行具体的记录。故障记录过于笼统,而且不利于故障的进一步分析,容易导致信息漏失。
发明内容
针对以上缺点,本发明提出了一种服务器PCIe设备故障记录的系统及方法,一种服务器PCIe设备故障记录的系统,包括:
CPU单元:用于存储PCIe设备配置空间寄存器;
BIOS单元:用于当BIOS单元监控到PCIe设备发生UCE故障时,收集故障PCIe设备的寄存器的值和故障信息;所述寄存器的值和故障信息位于所述空间寄存器的AERcapability中;
BMC单元:用于通过impi命令接收从BIOS单元发送的寄存器的值和故障位置信息;同时将寄存器的值和故障位置信息记录到黑盒日志中;
黑盒日志:用于记录寄存器的值和故障位置信息,并根据所述寄存器的值对寄存器进行解析;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811434099.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式日志系统
- 下一篇:软件集成测试方法及平台