[发明专利]集群故障检测方法和装置在审
申请号: | 201910953290.4 | 申请日: | 2019-10-09 |
公开(公告)号: | CN110716842A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 刘志杰 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 11453 北京名华博信知识产权代理有限公司 | 代理人: | 姜超 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 巡检 异常节点 集群 服务状态信息 服务集群 服务 检测 计算机互联网 大规模集群 方法和装置 上游服务器 场景 故障检测 集群服务 集群规模 人工巡检 网络环境 依赖关系 上游 多集群 复杂度 代理 部署 | ||
本公开是关于一种集群故障检测方法和装置。涉及计算机互联网技术,解决了人工巡检和部署专用代理巡检无法在集群规模较大及多集群场景中满足复杂巡检需求的问题。该方法包括:在集群内节点中检测服务异常的服务异常节点;当检测到所述服务异常节点时,获取与所述服务异常节点所属集群存在第一依赖关系的至少一个上游服务集群;检测各个所述上游服务集群的服务状态信息,所述服务状态信息指示所述上游服务器集群服务正常或服务异常。本公开提供的技术方案适用于大规模集群巡检场景,实现了对服务复杂度高的网络环境下的高效、准确的巡检。
技术领域
本公开涉及计算机互联网技术,尤其涉及一种集群检测方法和装置。
背景技术
一般的巡检方式只能获取到节点服务的运行状态,然后通过其他方式展示,由于只有服务级别的巡检,一旦发现问题,需要查看服务日志或者相关监控,由人工排查定位故障;在涉及到多集群的情况下,还需要在若干系统上来回切换以排查问题。随着服务的复杂度不断升高,集群中的服务器甚至增加到达了上万台的规模,巡检难度随之增高。
可通过部署多个代理巡检执行模块作为节点巡检的渠道,形成分布式的巡检系统进行自动巡检。中心模块将巡检任务分配给多个代理巡检执行模块,每个代理巡检执行模块连接有若干节点,代理巡检执行模块将巡检任务发送至其连接的节点中执行巡检。
但在集群规模较大及多集群场景中,通过部署专用的节点巡检渠道实现过于复杂,成本过高。在这样的场景下,人工巡检的工作量更是过大,导致故障无法被及时发现,故障排除严重滞后,网络性能受损,极大的影响了用户体验。
发明内容
为克服相关技术中存在的问题,本公开提供一种集群故障检测方法和装置。
根据本公开实施例的第一方面,提供一种集群故障检测方法,包括:
在集群内节点中检测服务异常的服务异常节点;
当检测到所述服务异常节点时,获取与所述服务异常节点所属集群存在第一依赖关系的至少一个上游服务集群;
检测各个所述上游服务集群的服务状态信息,所述服务状态信息指示所述上游服务器集群服务正常或服务异常。
进一步的,所述在集群内节点中检测服务异常的服务异常节点,包括:
获取集群索引,所述集群索引指示所述集群内部拓扑结构,所述集群内部拓扑结构包括:集群内的全部节点和各节点间的连接关系;
通过监测系统获取所述集群内各个节点的工作状态信息,所述监测系统至少包括以下平台中的任一或任意多个:
集群主节点、分布式布置与监控系统、机器报障系统、机器状态检测设备、分布式版本控制系统、关键指标监控系统,
其中,所述集群主节点提供其所属集群内各节点的服务状态信息,所述机器报障系统提供节点的报修信息,所述机器状态检测设备提供节点的连通性信息和/或硬件性能信息,所述分布式版本控制系统提供节点的服役情况信息,所述关键指标监控系统提供节点级和集群级的关键指标;
根据所述工作状态信息,确定所述服务异常节点。
进一步的,所述根据所述工作状态信息,确定所述服务异常节点,包括以下至少一项:
根据所述集群内各节点的服务状态信息,将服务状态异常的节点确定为所述服务异常节点;
根据所述集群内各节点的服役情况信息,将退役节点确定为所述服务异常节点;
根据所述集群内各节点的报修信息,将处于报修中的节点确定为所述服务异常节点;
根据所述集群内的各节点的连通性信息,将发生连通异常的节点确定为所述服务异常节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910953290.4/2.html,转载请声明来源钻瓜专利网。