[发明专利]高可用性系统中的故障处理方法和故障处理集群在审
申请号: | 201710589299.2 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107147540A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 杨勇;亓开元 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 李红爽,李丹 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 可用性 系统 中的 故障 处理 方法 集群 | ||
技术领域
本发明涉及通信技术领域,尤指一种高可用性系统中的故障处理方法和故障处理集群。
背景技术
高可用性集群(High Available,HA)是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。
但在高可用(HA)系统中,当联系2个节点之间的联系断开时,原本为一整体、动作协调的HA系统,就分裂成为2个独立的个体。由于相互失去了联系,都会认为是对方出了故障。两个节点上的HA软件像“裂脑人”一样,争抢共享资源、争起应用服务,就会发生严重后果,比如,共享资源被瓜分、2边服务都起不来了;或者2个节点服务都起来了,但同时读写共享存储,导致数据损坏,比如hdfs文件系统元数据出错等。
因此,在高可用(HA)系统中,当联系2个节点之间的联系断开时,如何对集群中节点进行管理以保证业务正常运行是亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供了一种高可用性系统中的故障处理方法和故障处理集群,能够防止高可用集群脑裂现象的产生。
为了达到本发明目的,本发明提供了一种高可用性系统中的故障处理集群,所述故障处理集群中每个节点包括:
获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;
监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;
节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。
其中,所述故障处理集群有2N+1个节点,其中一个节点为主节点,其余节点为从节点,N为正整数;其中:
发送模块,用于通知从节点从工作集群中选择代替所述出现故障的节点继续工作的节点;
确定模块,用于根据从节点和主节点的选择结果,确定代替故障节点继续工作的节点;
其中,所述每个节点包括:
选举模块,用于从工作集群中选择代替所述出现故障的节点继续工作的节点,并将选择结果发送给所述主节点。
其中,所述节点管理模块包括:
获取单元,用于获取出现故障节点的节点上基板管理控制器BMC的IP地址信息;
发送单元,用于根据出现故障节点的节点上BMC的IP地址信息,向出现故障的节点的BMC发送关闭电源的指令。
其中,所述每个节点还包括:
告警模块,用于输出出现故障的节点的故障描述信息。
其中,所述每个节点还包括:
策略管理模块,用于在接收到监测策略的更新请求后,根据所述更新请求,对监测策略进行更新,并将更新后的监测策略发送给所述监测模块。
一种高可用性系统中故障处理方法,包括:
故障处理集群获取每个节点在高可用性系统中工作集群对应的管理对象,其中所述管理对象为工作集群的节点;
根据预先设置的监测策略,对所述管理对象的运行状态进行监测;
当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。
其中,所述通知出现故障的节点下线之后,所述方法还包括:
通知各节点从工作集群中选择代替所述出现故障的节点继续工作的节点;
接收各节点发送的选择结果;
根据所述选择结果,确定代替故障节点继续工作的节点,其中所述故障处理集群有2N+1个节点,其中一个节点为主节点,其余节点为从节点,N为正整数。
其中,所述通知出现故障的节点下线包括:
获取出现故障节点的节点上基板管理控制器BMC的IP地址信息;
根据出现故障节点的节点上BMC的IP地址信息,向出现故障的节点的BMC发送关闭电源的指令。
其中,所述通知出现故障的节点下线之后,所述方法还包括:
输出出现故障的节点的故障描述信息。
其中,所述方法还包括:
在接收到监测策略的更新请求后,根据所述更新请求,对监测策略进行更新,并将更新后的监测策略发送给所述监测模块。
本发明提供的实施例,通过对集群节点进行故障诊断,当集群中某节点心跳断开,对故障节点进行关机操作,确保故障节点完全关闭,防止高可用集群脑裂现象的产生。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710589299.2/2.html,转载请声明来源钻瓜专利网。