[发明专利]一种基于服务发现的集群资源监控系统有效
申请号: | 202110000525.5 | 申请日: | 2021-01-04 |
公开(公告)号: | CN112328456B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 文彬;严凡 | 申请(专利权)人: | 北京电信易通信息技术股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F9/455;G06F9/445 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 100097 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 服务 发现 集群 资源 监控 系统 | ||
1.一种基于服务发现的集群资源监控系统,其特征在于,包括:指标采集组件、服务发现组件、监控组件和容器云平台;
容器集群的每个主机和非容器集群的每个主机上均运行对应的所述指标采集组件;所述指标采集组件根据用户的选择进行部署或者卸载,用于采集对应的指标数据,所述指标数据包括主机指标、集群指标和自定义指标;
所述服务发现组件用于同步所述容器集群和所述非容器集群中的主机;当所述容器集群或所述非容器集群中新增主机时,所述服务发现组件将对应的指标采集组件一键式部署至新增的主机,并通知所述监控组件;当所述容器集群或所述非容器集群中删除主机时,所述服务发现组件将对应的指标采集组件从删除的主机上卸载,并通知所述监控组件;
所述监控组件是指由Prometheus、PushGateway和Alertmanage构成的组件集合,用于接收每个所述指标采集组件采集的指标数据,并将接收的指标数据在所述容器云平台上进行展示;
所述的基于服务发现的集群资源监控系统还包括:告警组件;所述监控组件还用于存储告警规则,所述告警组件用于根据所述监控组件的告警规则生成告警信息,并将所述告警信息在所述容器云平台上进行展示;所述容器云平台还用于根据已生成的告警信息进行相应的操作;
所述容器云平台包括:告警展示模块、监控展示模块和告警操作模块;
所述告警展示模块用于对告警信息进行展示、对历史告警信息进行统计以及对历史告警信息进行分类查看;
所述监控展示模块用于对监控组件接收的指标数据进行展示;
所述告警操作模块用于对生成的告警信息进行相应的操作。
2.根据权利要求1所述的基于服务发现的集群资源监控系统,其特征在于,所述容器云平台根据已生成的告警信息进行的相应的操作具体包括:
所述容器云平台用于将所述告警信息推送至工作人员;
所述容器云平台还用于确认推送的所述告警信息,避免重复推送;
所述容器云平台还用于恢复告警状态,当告警状态恢复后所述告警信息仍然存在时,继续推送所述告警信息。
3.根据权利要求2所述的基于服务发现的集群资源监控系统,其特征在于,所述容器云平台推送所述告警信息的方式包括:短信、邮件、企业微信和钉钉。
4.根据权利要求1所述的基于服务发现的集群资源监控系统,其特征在于,所述主机指标包括主机性能指标和主机运行指标;所述主机性能指标包括:CPU、内存、磁盘、网络、负载和TCP连接;所述主机运行指标包括:状态、进程使用的资源、关键服务使用的资源和主机系统日志。
5.根据权利要求1所述的基于服务发现的集群资源监控系统,其特征在于,所述集群指标包括集群性能指标、集群组件指标和系统日志指标;所述集群性能指标包括:集群的吞吐量、占用资源、IO瓶颈和网络压力;所述集群组件指标包括:集群核心组件的运行状态和运行日志;所述系统日志指标包括:主机的系统日志、集群日志以及应用和服务的日志。
6.根据权利要求1所述的基于服务发现的集群资源监控系统,其特征在于,所述自定义指标包括:用户应用的性能指标和运行状态。
7.根据权利要求1所述的基于服务发现的集群资源监控系统,其特征在于,所述服务发现组件还用于根据容器集群以及非容器集群中主机的变化,更新抓取目标的配置文件;所述配置文件用于更新主机的信息、更新用户自定义的抓取信息以及更新开源的exporter信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京电信易通信息技术股份有限公司,未经北京电信易通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110000525.5/1.html,转载请声明来源钻瓜专利网。