[发明专利]一种基于多播网络监控集群的方法及系统有效
申请号: | 201010165520.X | 申请日: | 2010-04-30 |
公开(公告)号: | CN101841541A | 公开(公告)日: | 2010-09-22 |
发明(设计)人: | 陈云松 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/18;H04L12/26 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;王漪 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 监控 集群 方法 系统 | ||
技术领域
本发明涉及计算机及通信领域,尤其涉及一种对大规模集群进行可靠的监控、告警的方法及系统。
背景技术
高性能计算技术、高端集群存储技术的发展是伴随着计算机技术的发展而发展的,也就是说,从计算机技术诞生之日起,人们就在为追求更高计算能力的计算机系统而努力。在过去几十年间,可以说是高性能计算机体系结构和通信技术不断创新的年代,出现了包括MPP(Massively ParallelProcessing,大规模并行处理系统)、SMP(Symmetrical Multi-Processing,对称多处理)、集群等各种各样的体系结构及网络互联技术。尤其是最近几年,集群技术发展迅速,已经成为构建超级计算机系统的主流架构之一。在最新发布的TOP500中,基于集群架构的硬件系统已经增至500个,所占比例达72%,并在数量上仍有不断增加的趋势,可见集群技术在高性能计算领域有着旺盛的生命力和广阔的发展前景。
然而,集群架构服务器系统的特点是节点数量庞大,网络体系复杂,需要对其进行有效的监控和管理。为了节省网络带宽,目前大部分集群监控体系都是基于多播地址的监控体系,但这些体系具有缺乏纠错机制,发生传输错误难以弥补的缺陷。随着节点数目的不断增加,这种缺陷会不断地被放大,甚至会影响整个集群的性能。
在现有基于多播控制的集群监控体系结构的基础上,提出一种适用于高效、可靠的监控服务体系结构就显得很必要了。
发明内容
本发明要解决的技术问题是,提供一种基于多播网络监控集群的方法及系统,既保证监控数据的准确性,同时又节省了系统带宽。
为了解决上述技术问题,本发明提出一种基于多播网络监控集群的系统,包括配置模块、数据采集模块、控制处理模块和告警模块,其中:
所述配置模块,用以保存资源采集信息、网络状态检测信息、资源状态判断信息;
所述数据采集模块,用以根据所述配置模块中保存的资源采集信息采集集群中各节点的资源数据,以及在接收到重新采集某一节点的资源数据的控制命令后,重新采集该节点的资源数据;
所述控制处理模块,用于通过TCP协议建立与集群中各节点的网络连接,并根据所述配置模块中保存的网络状态检测信息以单播方式检测各节点的网络连接状态,如果检测到某一节点的网络连接状态不佳,则向所述数据采集模块发送重新采集该节点的资源数据的控制命令;以及根据所述配置模块中保存的资源状态判断信息分析所述数据采集模块最新采集到的各节点的资源数据,如符合报警条件,则向所述报警模块发送报警信号;
所述告警单元,用以在接收到报警信号后,进行报警。
进一步地,上述系统还可具有以下特点:
所述数据采集模块,分别设置在集群中各节点上,采集其所在节点上的资源数据,并将采集到的资源数据根据所述集群的多播地址发送出去;
所述控制处理模块根据所述集群的多播地址信息接收各节点的资源数据。
进一步地,上述系统还可具有以下特点:
所述网络状态检测信息包括一时间阈值;
所述控制处理模块根据所述时间阈值检测各节点的网络连接状态,如果检测到某一节点的网络连接超时,则认为该节点的网络连接状态不佳。
进一步地,上述系统还可具有以下特点:
所述控制处理模块在检测各节点的网络连接状态时是以轮循的方式执行检测。
进一步地,上述系统还可具有以下特点:
所述网络状态检测信息还包括一数量阈值;
所述控制处理模块在连续检测到某一节点的网络连接状态不佳的次数超过所述数量阈值时,向所述报警模块发送报警信号。
为了解决上述技术问题,本发明还提出一种基于多播网络监控集群的方法,包括步骤:
配置资源采集信息、网络状态检测信息、资源状态判断信息;
根据所述资源采集信息分别采集集群中各节点的资源数据;
通过TCP协议建立与所述各节点的网络连接,根据所述网络状态检测信息以单播方式检测各节点的网络连接状态;
在检测出某一节点的网络连接状态不佳时,重新采集该节点上的资源数据;
根据所述资源状态判断信息分析最新采集到的集群中各节点的资源数据,在判断出某一节点的资源数据符合报警条件时,报警。
进一步地,上述方法还可具有以下特点:
在采集集群中各节点的资源数据时,是分别在各节点上采集资源数据,并将采集到的资源数据根据所述集群的多播地址发送出去;
在分析最新采集到的集群中各节点的资源数据时,先在所述多播地址信息上接收各节点的资源数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010165520.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种专用移动通信终端、系统及其方法
- 下一篇:组播流量分担的方法及相关装置