[发明专利]节点性能检测方法和装置在审
申请号: | 202010016558.4 | 申请日: | 2020-01-08 |
公开(公告)号: | CN113094243A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 刘志杰 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 姜超 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节点 性能 检测 方法 装置 | ||
本公开是关于一种节点性能检测方法和装置。涉及分布式计算领域,解决了缺乏对分布式计算系统性能分析机制的问题。该方法包括:获取集群中各节点的历史任务的运行数据;分析所述历史任务的运行数据;根据分析结果,确定各节点的性能。本公开提供的技术方案适用于分布式计算节点集群性能探测,实现了低成本、高效率、准确的节点性能检测。
技术领域
本公开涉及分布式计算领域,尤其涉及一种节点性能检测方法和装置。
背景技术
在大规模分布式计算服务中,计算节点集群的规模可达到数千台物理机或虚拟机,所有的计算服务运行在各节点上。但由于节点性能参差不齐,在分布式计算服务中,虽已经为宕机节点配置了容错能力,但是也受到木桶理论的限制,用户作业(job)最终的运行时间取决于计算任务所有拆分任务(task)中运行时间最长的task所消耗的时间。在某此task运行时间过长的情况下,无法在短时间内快速定位影响性能、导致任务运行慢的原因,也无法自动且准确的探测确定异常节点。虽然通过基本硬件健康信息或者系统日志能够判断发生异常的位置,但由于集群众多,且机器机型差异性也比较大,无法统一硬件信息检查的入口,因此探测成本非常高。且很多情况下探测结果表明机器系统日志及硬件并没有异常,但是性能确实存在问题(可能由于硬件老化等其他原因造成)。
综上,缺乏对分布式计算服务性能进行分析的有效机制。
发明内容
为克服相关技术中存在的问题,本公开提供一种用于分布式计算系统中的节点性能检测方法和装置。
根据本公开实施例的第一方面,提供一种用于分布式计算系统中的节点性能检测方法,包括:
获取集群中各节点的历史任务的运行数据;
分析所述历史任务的运行数据;
根据分析结果,确定各节点的性能。
优选的,所述获取集群中各节点的历史任务的运行数据的步骤包括:
周期性的获取集群中各节点的历史任务的运行数据。
优选的,所述历史任务的运行数据包括任务指标数据和任务明细数据;
其中,所述任务指标数据至少包括以下数据中的任一或任意多项:
所述历史任务的数量、历史任务的类型、各类型的历史任务的平均运行时间,一个类型的历史任务的平均运行时间为该类型的所述历史任务的总运行时间/该类型的所述历史任务的个数;
所述任务明细数据至少包括以下数据中的任一或任意多项:
执行所述历史任务的节点的身份信息、各个历史任务的运行时间;
所述分析所述历史任务的运行数据的步骤包括:
确定各历史任务的实际超发倍数,所述实际超发倍数为:
该所述历史任务的运行时间/所述历史任务的平均执行时间;
遍历分析所述历史任务,从中筛选出实际超发倍数超过预设的标准超发倍数的历史任务;
当所述历史任务的实际超发倍数大于所述标准超发倍数时,确定执行所述历史任务的节点为所述历史任务的实际执行节点;
针对每个实际超发倍数超过预设的标准超发倍数的所述历史任务生成超发记录;
所述超发记录至少包括以下信息:
所述历史任务的实际执行节点,该所述历史任务的实际超发倍数。
优选的,所述根据分析结果,确定各节点的性能的步骤包括:
对所生成的所有超发记录进行处理,确定每个节点作为实际执行节点出现的频次和平均超发倍数,得到分析信息,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010016558.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种输电线路分布式故障监测终端的防滑装置
- 下一篇:一种儿童思维训练用机器人