[发明专利]集群节点故障业务快速恢复方法、装置、设备及存储介质有效
申请号: | 201810836340.6 | 申请日: | 2018-07-26 |
公开(公告)号: | CN108958991B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 孙业宽 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F11/20 | 分类号: | G06F11/20;G06F11/14 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 节点 故障 业务 快速 恢复 方法 装置 设备 存储 介质 | ||
本申请公开了一种集群节点故障业务快速恢复方法、装置、设备及存储介质,该方法包括:添加数据库恢复开关;当CTDB集群有节点故障时,判断所述数据库恢复开关是否开启;若是,则更改CTDB状态为活跃状态,执行数据库恢复流程,进行虚拟IP的重新分配;若否,则保持CTDB状态为正常状态,跳过所述数据库恢复流程,直接进行所述虚拟IP的重新分配。本申请通过添加数据库恢复开关,增加灵活性,跳过节点故障CTDB的数据库恢复流程,并保持CTDB状态为正常状态,只保留虚拟IP分配流程,将CTDB故障切换恢复时间由6秒缩短到2秒,缩短了4秒,缩短了集群节点故障恢复时间,提高了分布式存储集群稳定性和高可用特性。
技术领域
本发明涉及分布式存储技术领域,特别是涉及一种集群节点故障业务快速恢复方法、装置、设备及存储介质。
背景技术
目前,轻量级集群数据库(clustered trivial database,简称CTDB)是一套集群高可用管理软件,负责监控集群节点状态和虚拟IP的分配,在集群中的节点发生故障时CTDB主节点会执行故障切换,包括:数据库恢复和虚拟IP重新分配,发生故障切换时CTDB的状态会变为ACTIVE;数据库恢复流程包括:冻结数据库、从所有节点收集数据库记录、在本地合并数据库记录保证每条记录都是最新的、所有节点删除数据库、将合并后的记录推送到所有节点,该流程耗时约4秒,如果某个流程失败会数据库恢复时间会更长;在不使用samba服务时,其他网络文件系统比如ganesha集群高可用方案,只需要用到虚拟IP漂移,即虚拟IP完成漂移,业务相应的转到其他节点继续提供服务,虚拟IP漂移流程总耗时约2秒。
数据库恢复流程在虚拟IP分配之前,且只有数据库恢复流程执行成功才会进行虚拟IP的重新分配,CTDB属于samba的一个组件,其数据库主要保存samba服务相关的信息,与samba的耦合性较高,CTDB可剥离出作为单独的集群高可用软件,用于管理除samba之外的其他服务,例如ganesha等,负责管理ganesha的启动停止等等,在不用samba服务时节点故障CTDB执行故障恢复动作仍然会首先执行数据库恢复,数据库恢复成功之后再进行虚拟IP的重新分配,如此数据库恢复和虚拟IP分配增大了故障切换时间,一般总耗时约6秒,时间较长。
因此,如何缩短集群节点故障恢复时间,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种集群节点故障业务快速恢复方法、装置、设备及存储介质,可以将CTDB故障切换恢复时间缩短为2秒,提高分布式存储集群稳定性和高可用特性。其具体方案如下:
一种集群节点故障业务快速恢复方法,包括:
添加数据库恢复开关;
当CTDB集群有节点故障时,判断所述数据库恢复开关是否开启;
若是,则更改CTDB状态为活跃状态,执行数据库恢复流程,所述数据库恢复流程执行成功后再进行虚拟IP的重新分配;
若否,则保持CTDB状态为正常状态,跳过所述数据库恢复流程,直接进行所述虚拟IP的重新分配。
优选地,在本发明实施例提供的上述集群节点故障业务快速恢复方法中,
所述数据库恢复开关在使用samba的高可用集群中为开启状态;
所述数据库恢复开关在不使用samba的高可用集群中为关闭状态。
本发明实施例还提供了一种集群节点故障业务快速恢复装置,包括:
开关添加模块,用于添加数据库恢复开关;
开关判断模块,用于当CTDB集群有节点故障时,判断所述数据库恢复开关是否开启;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810836340.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高现场可更换单元信息可靠性的方法和装置
- 下一篇:测试方法和装置