[发明专利]用于分布式系统的异常实例检测方法、装置、设备和介质有效
申请号: | 201910708389.8 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110647447B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 甄真;侯进超;陈佳捷;齐志宏 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布式 系统 异常 实例 检测 方法 装置 设备 介质 | ||
本发明实施例公开了一种用于分布式系统的异常实例检测方法、装置、设备和介质,其中,所述分布式系统包括多个服务,各服务包括至少一个实例,该方法包括:采集各实例的时序指标数据,以及各请求对所述各实例进行调用的调用链数据;根据所述时序指标数据,确定系统异常时刻的候选异常实例集合;根据所述调用链数据,从所述候选异常实例集合中筛选出至少一个关键异常实例,其中,所述关键异常实例为其调用对请求集合的整体处理时间具有正贡献的异常实例。本发明实施例可以实现高效与准确地定位分布式系统中的关键异常实例。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种用于分布式系统的异常实例检测方法、装置、设备和介质。
背景技术
大规模分布式系统包含数量庞大的节点,请求往往要经历多层级大规模的“扇出”过程,即一个请求会被发散成多个请求并行地请求下游服务,请求经历的服务调用链十分复杂。
在大规模分布式系统中,特别是在混部场景下,服务实例异常是常态,为了避免因服务实例异常造成的系统容量退化,现有技术通常是利用如下两种方法进行实例异常检测:
1)人工方法。人工方法需要技术人员获取一定时间段中各个实例的所有性能指标,再对这些指标进行逐个排查。在大规模系统中,需要分析的数据量非常多,人工分析起来效率极其低下,难以做到快速。排查过程中,大多需要依赖技术人员自身的知识和经验,得出的结论受人的主观因素影响大,难以做到异常实例确定的准确性;
2)基于时间段聚合指标的自动分析法。该方法本质上是将人工处理的过程自动化,甚至在此基础上进行复杂的数学建模,给每个实例基于历史正常表现建立指标模型,当新指标产生时,通过指标模型来判断实例是否异常。这种方法虽然可以做到快速,但找到的异常实例可能并不会对请求的整体处理时间造成恶化,那么也就不会对系统容量退化造成影响,因此,该方法也难以做到异常实例确定的准确性。
发明内容
本发明实施例提供一种用于分布式系统的异常实例检测方法、装置、设备和介质,以实现高效与准确地定位分布式系统中的关键异常实例。
第一方面,本发明实施例提供了一种用于分布式系统的异常实例检测方法,所述分布式系统包括多个服务,各服务包括至少一个实例,该方法包括:
采集各实例的时序指标数据,以及各请求对所述各实例进行调用的调用链数据;
根据所述时序指标数据,确定系统异常时刻的候选异常实例集合;
根据所述调用链数据,从所述候选异常实例集合中筛选出至少一个关键异常实例,其中,所述关键异常实例为其调用对请求集合的整体处理时间具有正贡献的异常实例。
第二方面,本发明实施例还提供了一种用于分布式系统的异常实例检测装置,所述分布式系统包括多个服务,各服务包括至少一个实例,该装置包括:
数据采集模块,用于采集各实例的时序指标数据,以及各请求对所述各实例进行调用的调用链数据;
候选异常实例集合确定模块,用于根据所述时序指标数据,确定系统异常时刻的候选异常实例集合;
关键异常实例筛选模块,用于根据所述调用链数据,从所述候选异常实例集合中筛选出至少一个关键异常实例,其中,所述关键异常实例为其调用对请求集合的整体处理时间具有正贡献的异常实例。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的用于分布式系统的异常实例检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司,未经百度时代网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910708389.8/2.html,转载请声明来源钻瓜专利网。