[发明专利]一种集群故障恢复方法和相关装置在审
申请号: | 201811296088.0 | 申请日: | 2018-11-01 |
公开(公告)号: | CN109117317A | 公开(公告)日: | 2019-01-01 |
发明(设计)人: | 柳增运 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 故障节点 恢复 故障恢复 相关装置 并行 发送 发生故障 集群状态 节点恢复 节点数据 事件发送 数据恢复 引导节点 触发 申请 脱离 | ||
本申请公开一种集群故障恢复方法和相关装置,该方法首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点;其后,向需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向集群发送第二事件;第一事件用于对需要进行恢复的故障节点进行故障恢复;第二事件用于对集群进行故障恢复;最终,待需要进行恢复的故障节点故障恢复完成后,将需要进行恢复的故障节点加入集群。本申请提供的技术方案及时识别需要进行恢复的故障节点,其后通过事件发送方式使节点恢复与集群恢复并行,由集群恢复同时引导节点进行数据恢复。相比于现有技术,这种集群恢复与节点恢复并行的方式能够保障集群中节点数据恢复的安全性和可靠性。
技术领域
本申请涉及存储技术领域,特别是涉及一种集群故障恢复方法和相关装置。
背景技术
在大数据时代到来的今天,越来越多的存储系统被应用于数据存储。在这样庞大的存储集群中,节点宕机的情况时有发生,集群故障影响存储集群中数据的安全性和可靠性。然而,目前现有的集群故障恢复技术安全性和可靠性仍有待提升。
发明内容
基于上述问题,本申请提供了一种集群故障恢复方法和相关装置,以及时恢复集群,并保障集群数据的安全性和可靠性。
本申请实施例公开了如下技术方案:
本申请第一方面提供一种集群故障恢复方法,包括:
确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;
所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
可选地,所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点,具体包括:
进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点。
可选地,在所述进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点之前,所述方法还包括:
所述进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
可选地,在所述向所述需要进行恢复的故障节点发送第一事件之前,所述方法还包括:
所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
可选地,所述对所述集群进行故障恢复,具体包括:
所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;所述元数据包括:配置数据、虚拟化表和映射表;
将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。
可选地,在所述将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步之后,所述方法还包括:
通知所述需要进行恢复的故障节点刷写掉未处理的数据;
所述将所述需要进行恢复的故障节点加入所述集群,具体包括:
所述未处理的数据刷写完成后,重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
本申请第二方面提供一种集群故障恢复装置,包括:
进程与硬件检测模块,用于确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811296088.0/2.html,转载请声明来源钻瓜专利网。