[发明专利]检测故障的方法和装置有效
申请号: | 201711261551.3 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108173672B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 吴昊 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 王君;肖鹂 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 故障 方法 装置 | ||
本申请提供了一种检测故障的方法和装置,该方法包括:集群监测器接收至少一个客户端中每个客户端发送的状态信息,所述状态信息用于指示与所述每个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述每个客户端发送的状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述至少一个客户端通信的服务器的存储单元的故障状态,在与所述至少一个客户端通信的服务器中确定故障服务器,能够降低检测故障的复杂度。
技术领域
本申请涉及计算机领域,并且,更具体地,涉及计算机领域中检测故障的方法和装置。
背景技术
分布式文件系统在客户端(client)将数据写到各个服务器或者从服务器读取数据,当服务器(server)的磁盘出现故障时,需要及时检测到故障并将故障隔离,否则客户端无法感知磁盘状态,一直给故障的磁盘发送请求消息,最终导致出现操作错误。现有的检测故障的方法服务器检测磁盘的故障,不同的故障类型对应不同的检测机制,每种检测机制在不同的场景下需要配置不同的参数,并且每新增一种故障都需要增加新的检测机制,这样,会增加检测故障的复杂度。
发明内容
本申请提供一种检测故障的方法和装置,能够降低检测故障的复杂度。
第一方面,提供了一种检测故障的方法,包括:集群监测器接收至少一个客户端中每个客户端发送的状态信息,所述状态信息用于指示与所述每个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述每个客户端发送的状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态;所述集群监测器根据所述至少一个客户端通信的服务器的存储单元的故障状态,在与所述至少一个客户端通信的服务器中确定故障服务器;所述集群监测器向所述至少一个客户端中的第一客户端发送所述故障服务器的存储单元的故障状态。
因此,本申请实施例中,集群监测器根据状态信息,能够确定故障服务器,集群检测器可以屏蔽底层存储单元的故障,能够减少维护的成本,降低检测故障的复杂性。
可选地,存储单元也可以是硬盘或磁盘等。
可选地,存储单元的故障状态可以是存储单元存在故障、存储单元正常、存储单元的故障状态未知。
在某些实现方式中,所述每个客户端发送的状态信息包括多个状态信息,所述多个状态信息中每个状态信息为所述每个客户端的每个周期的状态信息;所述集群监测器根据所述每个客户端发送的状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态,包括:所述集群监测器根据所述每个客户端发送的多个状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态。
具体来说,可以根据每个客户端的多个状态信息确定存储单元的故障状态,多个状态信息可以是多个发送周期的状态信息,这样可以提高确定存储单元故障状态的准确性。
在某些实现方式中,若与所述每个客户端通信的服务器的存储单元中第一存储单元的故障状态为无故障,则用第一数值表示正常的存储单元,若所述第一存储单元故障状态为存在故障,则用第二数值表示故障的存储单元,若所述第一存储单元的故障状态未知,则用第三数值表示未知的存储单元。
在某些实现方式中,所述集群监测器根据所述每个客户端发送的多个状态信息,确定与所述至少一个客户端通信的服务器的存储单元的故障状态,包括:
所述集群监测器对所述每个客户端发送的多个状态信息中每个状态信息指示的存储单元的故障状态对应的数值进行加权,确定与所述至少一个客户端通信的服务器的存储单元的得分;所述集群监测器根据与所述至少一个客户端通信的服务器的存储单元的得分,确定与所述至少一个客户端通信的服务器的存储单元的故障状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711261551.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:运维方法、装置及系统
- 下一篇:一种路由器子网设备的远程维护方法、装置及设备