[发明专利]一种恢复服务及性能提升的方法及运维管理系统有效
申请号: | 201610140348.X | 申请日: | 2016-03-11 |
公开(公告)号: | CN107181608B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 姚文辉;刘俊峰;黄硕;朱家稷 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 解婷婷;龙洪 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恢复 服务 性能 提升 方法 管理 系统 | ||
一种恢复服务及性能提升的方法及运维管理系统,运维管理系统检测运行状态同步协议的节点集群中节点的状态变化,确定正常节点的个数NN,NN为整数;如果NN从大于等于S0变为小于S0,进行紧急处理以恢复正常服务,其中,在所述正常节点中包括主节点时,所述紧急处理包括:将配置中心及所述正常节点保存的所述参数S的值修改为小于或等于NN的正整数值;其中,参数S表示所述节点集群提供正常服务所要求的同步成功节点的最小个数,S0是根据所述状态同步协议确定的参数S的值。本申请可以有效解决多个节点同时出现硬件错误带来的不可用问题。
技术领域
本发明涉及分布式系统,更具体地,涉及一种分布式系统恢复服务及性 能提升的方法及运维管理系统。
背景技术
当前在大规模分布式存储系统中,为了实现集中权限认证、配额控制, 大部分采用了集中式元数据管理的方法,即将整个存储系统中所有数据的元 信息集中存放在若干节点进行存储。这种架构中元数据节点(也可称为元数 据服务器等)的可用性直接关系到整个系统的可用性,在多种分布式系统中 都通过冗余的方式来增加元数据服务的可用性。
冗余的方式会引入多个节点,节点间必须使用状态同步协议,保证在任 何时候做出的决定都是正确和不可否认的。在一个分布式系统中,如果各节 点的初始状态一致,每个节点都执行相同的命令序列,那么他们最后能得到 一个一致的状态。为保证每个节点执行相同的命令序列,需要在每一条指令 上执行一个“一致性算法”以保证每个节点看到的指令一致。
Paxos协议被公认为是状态同步协议中应用最广泛的协议之一,它解决 的问题是一个分布式系统如何就某个值(决议)达成一致。Paxos协议在有修 改操作时,会将所有修改状态单调递增编号,并在多个节点上进行决策,如 果大多数节点都同意接受这个决策,则修改被分别持久化到多个节点。这样 的协议设计可以保证每次决议都是大多数节点同意做出的,保证了决议的正 确性,反之,如果少数节点可以做出决议,会导致在同一个协议号产生两个 决议,从用户角度看来是错误决议或者决议不一致。同时每次决议号和决议本身持久化保证了在有错误发生恢复的时候,只要大多数节点的数据没有任 何丢失,那么以前做出的决议还是被保留的,之后的任何决议都可以基于一 个正确的决议基础继续进行,在任何时刻保证数据的一致即决议正确。
在利用多个元数据节点作为备份的分布式存储系统中,如果使用了Paxos 协议作为选举和日志备份的理论基础,在剩余少数元数据节点的情况下就不 能提供正常的元数据服务。在生产系统中,由于元数据节点所在的机器的硬 件配置基本是一致的,例如都使用了相同厂商的固态硬盘(SSD:Solid State Drives),擦写寿命相差不大,导致多台机器同时出问题的概率会增加。一旦 过半的机器出现了磁盘只读模式,会导致服务停止。在有多数元数据节点宕 机的时候,如果主节点依然还可用,可以对外提供读取元数据的服务,但修 改元数据的操作都不能成功。
在分布式存储系统中使用Paxos协议的一种简化方式时,多个元数据节 点通过Paxos协议进行选举,产生主节点(Primary)提供元数据服务;其他 节点作为从节点(Slave),只接受主节点的日志同步。主节点产生的日志会 发给所有的从节点,如果从节点同意并且接受了日志同步,主节点会收到从 节点同意的反馈,在多数节点同步成功(包括主节点)时,主节点向发出服 务请求的客户端(Client)返回成功,否则客户端的请求将被挂起,客户端会 收到超时消息,此时表现为服务停止。也就是说,采用Paxos协议提供元数据服务冗余能力时,如果大多数元数据节点停止服务时,会导致整个服务停 止,即使其中还存在正常节点。另外,如果至少一半的节点性能变差时,整 个服务的性能也会随之变差。因为日志同步时大多数节点后返回同意才能完 成客户端的操作,所以操作性能依赖于大多数节点中最慢节点的性能。
其他运行状态同步协议的节点集群也存在类似的情况。
发明内容
有鉴于此,本发明提供了以下方案。
一种恢复服务的方法,应用于运维管理系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610140348.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于端到端的应用系统故障定位方法及装置
- 下一篇:通信方法和系统