[发明专利]分布式系统的故障处理方法、装置及电子设备在审
申请号: | 201911119217.3 | 申请日: | 2019-11-15 |
公开(公告)号: | CN111026572A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 魏子昂 | 申请(专利权)人: | 北京金山云网络技术有限公司;北京金山云科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京博遵律师事务所 11761 | 代理人: | 马佑平 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 系统 故障 处理 方法 装置 电子设备 | ||
本发明涉及分布式系统的故障处理方法、装置及电子设备。该方法包括:接收分布式系统中的目标服务器发送的故障信息;根据故障信息确定目标服务器的故障类型;根据故障类型生成相应的维修任务并发送至维修业务终端;获取维修业务终端反馈的维修任务的执行进度;以及向目标服务器发送探活请求,以获取目标服务器的存活状态;如果存活状态为可登录状态,则向目标服务器发送初始化配置指令,以将目标服务器恢复工作状态;如果存活状态为非可登录状态并且执行进度为完成状态,则从分布式系统删除目标服务器。
技术领域
本发明涉及分布式系统领域,更具体地,涉及一种分布式系统的故障处理方法、一种分布式系统的故障处理装置、一种电子设备、一种分布式系统的故障处理系统以及一种计算机可读存储介质。
背景技术
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
对于大规模分布式存储而言机器的故障频率较高,需要人工判断故障,然后人工发单去维修,处理周期长无法监控与跟踪,自动化程度低。另外人工发现的时候往往机器已经无法登陆,不利于及时发现和处理故障。
因此,有必要提出一种新的分布式系统的故障处理方案。
发明内容
本发明的一个目的是提供一种分布式系统的故障处理的新技术方案。
根据本发明的第一方面,提供了一种分布式系统的故障处理方法,应用于控制服务器,包括:
接收所述分布式系统中的目标服务器发送的故障信息;
根据所述故障信息确定所述目标服务器的故障类型;
根据所述故障类型生成相应的维修任务并发送至维修业务终端;
获取所述维修业务终端反馈的所述维修任务的执行进度;以及
向所述目标服务器发送探活请求,以获取所述目标服务器的存活状态;
如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;
如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。
可选地,如果所述存活状态为非可登录状态并且所述执行进度为完成状态,还包括:
停止对所述目标服务器进行状态监测。
可选地,所述故障类型包括系统盘故障、主机总线适配器故障、内存故障中的任意一种或者任意多种的组合。
根据本发明的第二方面,提供了一种分布式系统的故障处理方法,应用于所述分布式系统中的每个服务器,包括:
获取自身的故障信息;
将所述故障信息发送至控制服务器,以使所述控制服务器确定故障类型;
响应于所述控制服务器发送的探活请求,反馈自身的存活状态;
当自身的存活状态为可登录状态时,接收所述控制服务器发送的所述初始化配置指令;
响应于所述初始化配置指令,初始化自身的配置参数,以恢复为工作状态。
可选地,所述获取自身的故障信息,包括:
根据自身的系统日志和/或PCI总线信息获取所述故障信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山云网络技术有限公司;北京金山云科技有限公司,未经北京金山云网络技术有限公司;北京金山云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911119217.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋挖钻机动力头
- 下一篇:一种微生物燃料电池及其制备方法与应用