[发明专利]故障处理方法、装置、设备及介质在审
申请号: | 202010868462.0 | 申请日: | 2020-08-26 |
公开(公告)号: | CN111984475A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 刘文志 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/20 | 分类号: | G06F11/20 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障 处理 方法 装置 设备 介质 | ||
本申请公开了一种统一存储设备节点故障处理方法、装置、设备、介质,该方法包括:获取目标统一存储设备的集群管理模块下发的节点恢复事件;获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;根据所述目标参数对所述待恢复控制器进行服务恢复。这样能够对统一控制器组中双控制器节点故障恢复进行正常处理,以保证所述待恢复控制器恢复之后的数据一致性。
技术领域
本申请涉及存储技术领域,特别涉及一种统一存储设备节点故障处理方法、装置、设备、介质。
背景技术
参见图1所示,为当前统一存储设备的结构示意图。当前的统一存储设备通常都由多个控制器组成冗余结构,最常用的方式为两个控制器(即两个Node)组成一个控制器组IoGroup,进而再由多个IoGroup组成最终的多控集群。
在图1所示的架构下,由于掉电、业务故障等原因,有可能出现同一个IoGroup中两个节点都因为故障退出的场景,例如一个节点故障后引发另一个节点故障,或者因掉电使得两节点同时断电退出集群等,这种场景下由于同一个IoGroup中会出现两个node都不在的场景,因而故障前数据的保存以及节点重新加入时数据的恢复流程就变得尤其重要。也即,如何处理故障退出之后重新加入的控制器节点,以便保障控制器节点重新加入之后数据与故障前数据的一致性是本领域技术人员要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种统一存储设备节点故障处理方法、装置、设备、介质,能够对统一控制器组中双控制器节点故障恢复进行正常处理,保证故障恢复控制器节点的数据一致性。其具体方案如下:
第一方面,本申请公开了一种统一存储设备节点故障处理方法,应用于预设的节点事件处理模块,包括:
获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个多控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组;
获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;
根据所述目标参数对所述待恢复控制器进行服务恢复。
可选的,所述根据所述目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述目标参数中的第一目标参数和第二目标参数均为第一预设值,则确定所述参考控制器的运行状态;
如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
可选的,所述确定所述参考控制器的运行状态之后,还包括:
获取所述参考控制器中的第三目标参数和第四目标参数,其中,第三目标参数用于记录所述待恢复控制器的故障信息,所述第四目标参数用于记录所述参考控制器的故障信息;
根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复。
可选的,所述根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010868462.0/2.html,转载请声明来源钻瓜专利网。