[发明专利]服务器故障处理方法、系统、设备及可读存储介质在审
申请号: | 202110859373.4 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113608908A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 邓艳山;袁振涛 | 申请(专利权)人: | 烽火超微信息科技有限公司;烽火通信科技股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430000 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器 故障 处理 方法 系统 设备 可读 存储 介质 | ||
本发明提供一种服务器故障处理方法、系统、设备及可读存储介质。该方法包括:基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;根据所述故障告警日志、硬件更换日志以及历史告警日志确定对应的故障处理策略对故障进行处理。通过本发明,建立服务器的操作系统与基板管理控制器之间的虚拟网卡通道,使得操作系统可基于虚拟网卡通道接收基板管理控制器上报的各类日志文件,从而根据各类日志文件进行故障处理,提高了故障处理效率,保证了服务器的稳定运行。
技术领域
本发明涉及服务器管理技术领域,尤其涉及一种服务器故障处理方法、系统、设备及可读存储介质。
背景技术
现在服务器的硬件速率和配置越来越高,因为硬件故障导致服务器宕机现象也越来越多,在因为硬件故障导致服务器宕机时,需要通过人工或第三方软件从服务器的基板管理控制器(Baseboard Manager Controller,简称BMC)上下载的硬件告警日志进行离线分析。这种方式导致服务器宕机后,不能及时对导致服务器宕机的故障硬件进行定位,从而无法保证服务器的稳定运行。
发明内容
为解决上述技术问题,本发明的主要目的在于提供一种服务器故障处理方法、系统、设备及可读存储介质。
第一方面,本发明提供一种服务器故障处理方法,所述服务器故障处理方法应用于服务器的操作系统,所述服务器故障处理方法包括:
基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;
根据所述故障告警日志确定发生故障的目标硬件以及故障类型;
若故障类型为不可修复错误类型,则根据历史告警日志确定所述目标硬件发生不可修复错误类型故障的第一次数,并基于所述第一次数进行故障处理;
若故障类型为可修复错误类型,则根据硬件更换日志以及历史告警日志确定所述目标硬件发生可修复错误类型故障的第二次数、所述目标硬件被更换的第三次数以及所述目标硬件的历史访问次数,并基于所述第二次数、第三次数以及历史访问次数进行故障处理。
可选的,所述基于所述第一次数进行故障处理的步骤包括:
当所述第一次数与服务器工作时长的比值小于第一阈值,对所述目标硬件进行隔离操作;
当所述第一次数与服务器工作时长的比值大于或等于第一阈值,输出目标硬件更换提醒。
可选的,所述基于所述第二次数、第三次数以及历史访问次数进行故障处理的步骤包括:
当第二次数与服务器工作时长的比值小于第二阈值,则检测第三次数是否大于零;
若第三次数不大于零,则对所述目标硬件进行隔离操作;
当第二次数与服务器工作时长的比值大于或等于第二阈值,则对所述目标硬件进行隔离操作。
可选的,在所述则检测第三次数是否大于零的步骤之后,还包括:
若第三次数大于零,则计算第三次数、历史访问次数以及服务器工作时长的乘积;
若第二次数与所述乘积的比值大于或等于第三阈值,则对所述目标硬件进行隔离操作。
可选的,在所述计算第三次数、历史访问次数以及服务器工作时长的乘积的步骤之后,还包括:
若第二次数与所述乘积的比值小于第三阈值,则检测主板更换次数是否大于第四阈值;
若主板更换次数大于第四阈值,则输出安装异常提醒;
若主板更换次数小于或等于第四阈值,则输出主板更换提醒。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烽火超微信息科技有限公司;烽火通信科技股份有限公司,未经烽火超微信息科技有限公司;烽火通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110859373.4/2.html,转载请声明来源钻瓜专利网。