[发明专利]集群控制方法和集群控制设备有效
申请号: | 201710174996.1 | 申请日: | 2017-03-22 |
公开(公告)号: | CN106953759B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 张奇伟 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄玫 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 控制 方法 设备 | ||
公开了集群控制方法和集群控制设备。所述集群控制方法应用于一计算机集群,所述方法包括:从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及输出所述统计结果。
技术领域
本发明涉及集群控制领域,更具体地说,涉及能够监控集群运行健康状况的集群控制方法和集群控制设备。
背景技术
集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。和传统的高性能计算机技术相比,集群技术可以利用各档次的服务器作为节点,系统造价低,可以实现很高的运算速度,完成大运算量的计算,具有较高的响应能力,能够满足当今日益增长的信息服务的需求。
随着大数据的发展,对大数据提供底层支持的分布式运算和存储的集群的稳定性和性能获得了越来越多的关注。需要对集群运行时的信息进行实时监控,如发现异常情况,能够第一时间通知到相应的开发和运维人员进行处理,在用户还没有察觉之前处理完故障和异常,将损失降低到最低。
然而,对于与这些机器对应的开发和运维人员来说,即便是每台机器登陆一次,登陆那么多台机器也难以实现,何况还需要进行系统指标的检查。因此,依靠人力不可能完成24小时不间断监控服务器的任务。
因此,也诞生了许多进行集群监控的工具,以目前应用最广泛的hadoop生态系统为例,cloudera公司就推出了cloudera manager对集群的运行状况进行监控。然而,目前的监控均是简单的对影响集群运行的严重错误进行统计完成的。虽然这种统计可以从一定意义上反映出集群的运行状况,但是对于一般性的任务运行失败及用户的操作日志,并没有有效的分析。
发明内容
鉴于以上情况,期望提供一种新的集群控制方法和集群控制设备,其能够全方位覆盖集群的运行情况,使管理员及时发现一般性错误及其内在的关系。
根据本发明的一个方面,提供了一种集群控制方法,应用于一计算机集群,所述方法包括:从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及输出所述统计结果。
优选地,根据本发明实施例的集群控制方法可以进一步包括:对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类;以及输出所述主题-关键词聚类结果。
优选地,在根据本发明实施例的集群控制方法中,可以通过潜在狄利克雷分布算法进行所述数据挖掘。
优选地,在根据本发明实施例的集群控制方法中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤包括:统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。
优选地,在根据本发明实施例的集群控制方法中,输出所述统计结果包括:将所述统计结果以可视化图表的形式进行输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710174996.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分娩母羊羔羊转栏车
- 下一篇:PCB沉铜后运送装置