[发明专利]一种对集群中执行设备评价的方法和设备有效
申请号: | 201710198341.8 | 申请日: | 2017-03-29 |
公开(公告)号: | CN107451039B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 王家忙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 陈贞健;邵栋 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 执行 设备 评价 方法 | ||
本申请的目的是提供一种对集群中执行设备评价的方法和设备,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的具体情况,判断各所述执行设备的运行状态,并根据所述运行状态确定评价系数,通过将评价系数累加成评价结果,并定期提交至调度主设备,所述调度主设备通过接收至少一个分布式作业主设备上传的集群中各执行设备的评价结果,并根据汇总的评价结果对所述执行设备的性能进行评价,从而根据实际的运行情况生成性能评价信息,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
技术领域
本申请涉及计算机领域,尤其涉及一种对集群中执行设备评价的技术。
背景技术
大规模数据分析中需要使用多台计算机协同工作,多台计算机互相连接组成的物理系统称为集群,管理集群中多台计算机协同工作的系统称为分布式系统。分布式系统主要负责集群中计算机资源的调度。
随着计算机数目增加,发生计算机故障的频率也随之提高。目前大规模计算机集群一般包含上千台机器,虽然单台计算机的故障率很低,但是以集群为单位,机器的硬件各种类型的故障率非常可观。上千台机器的集群,基本上每天都会有故障会影响作业的运行。为了防止故障机器对于作业造成的影响过大,分布式调度系统需要评判机器的情况来进行调度决策。因此,在分布式作业运行过程中如何屏蔽计算机的故障,减弱计算机故障对于集群中运行的作业的影响是分布式系统的一个主要挑战。
计算机的故障一般分为两类:一是某种硬件彻底损坏,一般会导致作业在该机器执行失败;一是硬件没有彻底损坏,只是性能变差,这种情况下不会导致所有作业失败,而会导致部分作业执行失败,或者是作业执行变慢。而要减弱计算机故障对于集群中作业的影响首要的目标是要对计算机做出评价,识别发生故障的计算机。
目前已有方案的缺陷包括:一是硬件检测工具只能检测硬件彻底不可用的情况,对于硬件性能变差,往往很难检查出来。例如,磁盘检测工具可以发现磁盘不可写入文件或者不可读取文件,但是发现不了磁盘写入文件慢或者读取文件慢的情况。二是硬件检测只负责检测单个维度的硬件,给出某种硬件是否可用,但是在某些情况下部分硬件不可用的时候不会影响分布式作业的运行。例如对于只需要CPU(中央处理器)和内存的分布式作业,磁盘的不可用对于作业影响不大。三是硬件检测无法发现软件安装的问题,例如作业依赖的动态链接库在某台机器A没有正常安装,这时候作业在机器A无法正常运行,这种情况硬件检测发现不了问题,进而无法有效帮助调整调度决策。
发明内容
本申请的目的是提供一种基于分布式作业实际运行情况直接评判各分布式作业的执行设备性能的评价方法,以更直接地找出影响分布式作业运行情况的机器,并检测出硬件检测工具无法检测的问题。
根据本申请的一个方面,提供了一种在分布式作业主设备端对集群中执行设备评价的方法,其中,所述方法包括:
获取所述执行设备的运行状态;
确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;
将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
进一步地,获取所述执行设备的运行状态包括:基于所述执行设备对分布式作业实际运行的情况,获取所述执行设备的运行状态。
进一步地,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果包括:当所述分布式作业在执行设备上实际运行情况出现至少以下任一种:
所述分布式作业的单个作业实例执行失败;
所述分布式作业的所有作业实例执行失败;
所述分布式作业的作业实例无法启动;
分布式作业的所述作业实例的执行时间超出预设时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710198341.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种区块链共识方法及装置
- 下一篇:一种线上压力模拟测试的方法和设备