[发明专利]一种分布式存储系统的故障诊断方法与装置有效
申请号: | 201310219151.1 | 申请日: | 2013-06-04 |
公开(公告)号: | CN103259688B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 张阜兴;李剑宇 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 存储系统 故障诊断 方法 装置 | ||
技术领域
本发明涉及分布式系统数据处理技术领域,更具体的涉及一种分布式存储系统的故障诊断方法与装置。
背景技术
传统的网络存储系统采用集中的存储服务器存放所有数据,但是集中存储服务器的存储空间有限,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,将数据分散存储在多台独立的设备上,利用多台存储服务器分散存储数据的限制,为大规模数据存储提供了解决方案。但是在分布式存储系统中,当运行数据的进程(数据运行进程)出现故障时,如果不能及时发现故障并将运行数据迁移到其他设备中,服务就会停止,服务可用性较差。
基于上述内容可知,发现运行数据的进程是否发生故障,并在进程发生故障时及时进行数据迁移是保证服务可用性的关键。这里以基于Hbase框架的分布式存储系统为例,介绍进程故障的检测原理。在Hbase框架中,主要包含四个部分:Client节点、Master节点、ZooKeeper节点和RegionServer进程。在实际操作中,真正运行数据提供服务的是RegionServer进程,当RegionServer进程启动时会在ZooKeeper节点上注册自身信息,并建立一个租约,此后通过心跳机制与ZooKeeper节点保持通信以维护此租约。当RegionServer进程出现故障失效(退出)或者由于网络故障无法与ZooKeeper节点保持通信时,ZooKeeper节点会在租约超时达到预设阈值后删除该RegionServer进程对应的注册信息,并通知Master节点启动RegionServer进程的故障处理流程,将该RegionServer进程上的数据迁移到其它RegionServer进程上以继续提供服务。
发明内容
发明人经过研究发现,在现有技术中,采用心跳机制(或者称为租约机制)来进行RegionServer进程的故障诊断时,在租约超时达到预设阈值后ZooKeeper节点才能感应到RegionServer进程有故障发生,发现时间过长。本申请实施例提供一种分布式存储系统的故障诊断方法与装置,以解决现有技术中RegionServer进程故障发现时间过长、故障诊断效率较低的技术问题。
为解决上述技术问题,本发明提供一种分布式存储系统的故障诊断方法与装置,本发明提供如下技术方案:
一种分布式存储系统的故障诊断方法,所述方法包括:
监控进程根据待检测数据运行进程的注册信息获取所述数据运行进程标识;
监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,若不存在,则监控进程确定所述数据运行进程发生故障。
优选的,所述数据运行进程的标识为所述数据运行进程的名称时,所述监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,包括:
在终端设备运行进程列表中查找所述数据运行进程的名称,若未查找到,则所述数据运行进程不存在。
优选的,所述数据运行进程的标识为所述数据运行进程的编号时,所述监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,包括:
根据所述数据运行进程的编号获取该数据运行进程在终端设备上的运行端口;
若所述运行端口未被占用,则确定所述数据运行进程不存在。
优选的,所述数据运行进程的标识为所述数据运行进程所在设备的IP地址和为该进程分配的端口时,所述监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,包括:
在所述IP地址对应的终端设备上检测为所述数据运行进程分配的端口是否空闲,若是,则确定所述数据运行进程不存在。
优选的,所述方法还包括:
监控进程确定所述数据运行进程发生故障后,删除所述数据运行进程对应的注册信息。
优选的,所述监控进程为本地监控进程和/或远程监控进程,当所述数据运行进程所在的终端设备宕机时,则具体由远程监控进程执行所述删除所述数据运行进程对应的注册信息的步骤。
优选的,删除所述数据运行进程对应的注册信息之前,还包括:
对所述数据运行进程的注册信息版本号进行校验,以防止数据运行进程的误删除。
优选的,所述数据运行进程对应的注册信息被删除后,所述方法还包括:
触发ZooKeeper节点的回调机制,以使Master节点启动故障处理流程。
优选的,所述方法还包括:
若监控进程出现故障,则通过系统的心跳机制进行所述数据运行进程的故障诊断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310219151.1/2.html,转载请声明来源钻瓜专利网。