[发明专利]一种超大规模集群监控系统及方法无效
申请号: | 201110069521.9 | 申请日: | 2011-03-22 |
公开(公告)号: | CN102136972A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 赵欢;温鑫;邵宗有 | 申请(专利权)人: | 曙光信息产业股份有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 超大规模 集群 监控 系统 方法 | ||
技术领域
本发明涉及计算机高性能集群监控领域,具体涉及一种超大规模集群监控系统及方法。
背景技术
随着服务器数量逐年增多,对于管理人员,需要及时掌握集群的情况,以及实时地对集群进行监控。
监控超大规模集群(大于2000台)会遇到各种性能瓶颈问题,该技术解决了超大规模集群状态统一采集的性能问题、大规模数据存储和查询的性能问题。因此,需要一种系统及方法解决上述问题。
发明内容
为解决以上问题,本发明提供了一种超大规模集群监控系统及方法。
一种超大规模集群监控系统,该系统包括分区监控服务器和中心监控服务器;
所述分区监控服务器包括:
采集分区内部信息的监控模块;
将所述信息推送至所述中心监控服务器的推送模块;
接收来自所述中心监控服务器的统一配置结果配置的接收模块;
所述中心监控服务器包括:
接收来自所述分区监控服务器的信息的接收模块;
按照分区服务器的监控信息对分区服务器进行统一配置的配置模块;
统一配置的结果提供给分区监控服务器的发送模块。
优选的,所述分区监控服务器的信息至少包括告警信息,CPU利用率和内存占用空间中的一项。
优选的,所述统一配置的结果包括管理授权信息,用户管理配置,告警配置和信息采集配置中的至少一项。
一种超大规模集群监控方法,步骤如下:
A、每个分区监控服务器采集到每个分区集群内部信息后,将该信息推送至中心监控服务器;
B、中心监控服务器接收来自分区监控服务器的信息,并按照信息对所有分区进行统一配置,然后将统一配置结果提供给分区监控服务器;
C、分区监控服务器接收来自中心监控服务器的统一配置结果,按此结果对集群进行监控和管理。
优选的,所述分区监控服务器的信息至少包括告警信息,CPU利用率和内存占用空间中的一项。
优选的,所述统一配置的结果包括管理授权,用户管理配置,告警配置和信息采集配置中的至少一项。
本发明通过使用统一的集中式监控平台,有效实现了对超大规模集群进行高效的监控和管理。
附图说明
图1为根据本发明的超大规模集群监控系统的结构图;
图2为根据本发明的超大规模集群监控方法的流程图。
具体实施方式
图1为根据本发明的超大规模集群监控系统的结构图,如图1所示,该系统包括多个分区监控服务器100和中心监控服务器200。每个分区监控服务器100采集每个分分区内部的信息,并将采集到的信息以推送的方式将信息发送到中心监控服务器200。之所以采用推送的方式而不使用中心去各个分分区主动获取信息的方式,是因为分区过多时同时主动获取信息容易引起网络带宽瓶颈,而采用推送的方式,因为每个分区推送时间的随机性,则可以在很大程度上缓解同时发送信息的带宽压力。中心监控服务器200接收来自多个分区监控服务器100的信息,并按照信息对所有分区进行统一配置,以及将统一配置的结果提供给分区监控服务器100。
分区监控服务器100包括监控模块110、推送模块120和配置接收模块130。其中,监控模块110用于采集分区内部的信息。推送模块120用于将采集到的信息推送至中心监控服务器200。配置接收模块130用于接收来自中心监控服务器200的统一配置结果。
中心监控服务器200包括接收模块210、配置模块220和发送模块230。其中,接收模块210用于接收来自多个分区监控服务器100的信息。配置模块220用于对所有分区进行统一配置。发送模块230用于将统一配置的结果提供给分区监控服务器100。
下面结合附图2详细描述本发明的超大规模集群监控方法,该方法包括以下步骤:
步骤S210,每个分区监控服务器100采集到每个分区集群内部的信息后,将信息推送至中心监控服务器200。
步骤S220,中心监控服务器200接收来自分区监控服务器100的信息,并对所有分区进行统一配置,然后将统一配置的结果提供给每个分区监控服务器100。
步骤S230,每个分区监控服务器100接收来自中心监控服务器200的统一配置结果,按照统一配置结果对分区进行监控和管理。
应理解,上述实施例仅是示意性的实施例,并不限制本发明仅能够通过上述实施例实现。本领域的普通技术人员还能够根据上述方案提出其他修改或变化,这些修改或变化均应包含在本发明的包含范围之内。
采用本发明的超大规模集群监控系统,实现了超大规模集群监控,并且能够支持对多达上万台服务器的监控,监控信息占用的网络带宽少,监控的实时性能好。同时,提供对各种商用、自定义的管理工具的集成接口,具备可扩展性、集成性、可靠性和易用性,从而满足对超大规模集群进行监控的需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业股份有限公司,未经曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110069521.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坩埚可升降的烧结炉
- 下一篇:直线振动干燥机