[发明专利]计算机服务器集群日志监控方法及监控平台有效
申请号: | 201711353494.1 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107943668B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 尤福宝;汤成辉;徐文渊;黄云辉 | 申请(专利权)人: | 江苏神威云数据科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 张欢勇 |
地址: | 214000 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 服务器 集群 日志 监控 方法 平台 | ||
1.一种计算机服务器集群日志监控方法,具体步骤包括:
A.监控计算机服务器集群中的各个服务器在运行过程中主板产生的海量机器码指令,利用大数据技术中的实时流数据采集框架对主板产生的机器码指令数据进行实时采集,所述机器码指令至少包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令;其中:
通过RHCS技术,在2台服务器上部署主监控节点的监控服务,监控服务自动在计算机服务器集群中的服务器上部署采集代理,以保证监控服务在高可用状态,主监控节点能自动扫描发现并添加集群内新增的服务器至监控列表,自动添加被监控服务器的监控项;2台服务器采用主-从服务器的工作方式:主服务器工作,从服务器处于监控准备状况;当主服务器宕机时,从服务器接管主服务器的一切工作,待主服务器恢复正常后,按使用者的设定以自动或手动方式将服务切换到主服务器上运行;
所述流数据采集框架包括N个采集代理模块、采集服务模块、数据过滤模块、动态性能平衡模块和分布式流计算模块,所述N个采集代理模块运行在N个被监控节点上,实时采集被监控节点上的海量机器码指令,所述采集服务模块运行在主监控节点上,实时采集各采集代理模块发送的机器码指令并将其发送至数据过滤模块,所述数据过滤模块运行在主监控节点上,接收采集服务模块发送的机器码指令并将进行初步过滤,并将过滤后的机器码指令发送至分布式流计算模块,所述动态性能平衡模块用于动态平衡采集代理模块与采集服务模块、采集服务模块与数据过滤模块、数据过滤模块与分布式流计算模块之间的服务性能;
B.对采集到的机器码指令进行数据分类和转移操作,包括实时地过滤、加工及存储;其中:
所述的实时地过滤、加工及存储具体包括:通过基于Flume+Kafka+Storm框架的分布式流计算服务把服务器生成的机器码半结构化数据进行初步的过滤,保留用于分析的数据,再把该部分的数据翻译成可读的、有规律的结构化及半结构化数据,翻译后的数据通过HBase高性能列式数据库进行存储,结合Phoenix对外提供数据的实时读/写,HBase利用HDFS分布式文件系统做持久化数据存储,同时使用Hive提供静态结构化数据的查询,其使用类SQL语言,底层经过编译转位MapReduce程序在Hadoop上运行,当数据存储节点使用率过高时,通过增加新的存储节点进行水平扩展以保证步骤B的正常运行;
C.对步骤B处理后的数据进行实时分析和展示,获得实时分析结果并存储;
D.结合实时分析结果和存储的历史分析结果进行分析,得出计算机服务器潜在异常结果,并进行预警和通知。
2.根据权利要求1所述的计算机服务器集群日志监控方法,其特征在于:步骤A中所述的采集代理模块的采集项目可添加和配置,采集项目的相关阈值可设置。
3.根据权利要求1所述的计算机服务器集群日志监控方法,其特征在于:步骤C具体包括:对步骤B获得的数据流通过基于Nginx+PHP前端的Web进行实时的图线和报表展示,同时对数据流进行数据分析,标记出存在异常的数据值,根据数据分析结果,得出被监控计算机服务器集群的可用性报表。
4.根据权利要求3所述的计算机服务器集群日志监控方法,其特征在于:利用前端数据可视化框架EChart展示图线和报表且图线和报表可自定义为各类的图表集及网络拓扑图,同时利用PHP语言扩展一套API,用于管理被监控服务器、读取采集到的监控日志、自行开发监控情况及数据可视化界面等。
5.根据权利要求1所述的计算机服务器集群日志监控方法,其特征在于:步骤D具体包括:通过分析实时数据,储存的趋势数据及历史数据,对可能出现的故障及异常进行预估,匹配并给出推荐的解决方案,在预估过程中,采用深度学习框架Deeplearning4j对历史数据进行自主学习,提高事件预判的正确率与及时性,通过开放的告警API,接入邮件,短信或微信的告警通知服务。
6.根据权利要求1所述的计算机服务器集群日志监控方法,其特征在于:建立海量告警事件库SDK,在步骤D中同时结合海量告警事件库进行分析。
7.一种基于权利要求1所述的计算机服务器集群日志监控方法的监控平台,其特征在于:包括主机设备、存储器设备和网络通讯设备,所述主机设备包括监控系统、消息系统、存储系统、分析系统、展示系统和告警系统,所述存储器设备包括文件系统、数据库系统,所述网络通讯设备包括调制解调器、路由器和网络交换机,所述主机设备采用高可用设计,使用主-从服务器方式:主服务器工作,从服务器处于监控准备状况;当主服务器宕机时,从服务器接管主服务器的一切工作,待主服务器恢复正常后,按使用者的设定以自动或手动方式将服务切换到主服务器上运行;
所述监控系统利用实时流数据采集框架对被监控的计算机服务器在运行过程中主板产生的机器码指令进行实时采集并发送到消息系统;
所述消息系统对采集到的数据进行数据分类和转移操作,包括实时地过滤,加工;
所述存储系统利用HBase列式高性能数据库技术,对消息系统加工后的数据进行快速读/写,并存储至文件系统中;
所述分析系统对存储后的数据进行实时计算和趋势预测分析,获得处理结果并将其分别发送至展示系统和数据库系统,同时将处理结果中指示趋势预测异常的结果发送至告警系统;
所述展示系统将接收到的处理结果以图像和报表的形式进行展示;
所述告警系统根据接收到的结果向运维人员发出告警;
所述文件系统为HDFS分布式文件系统,用于存储消息系统加工后的数据;
所述数据库系统用于存储接收到的分析系统的处理结果;
所述网络通讯设备用于主机设备与被监控的计算机服务器、主机设备与存储器设备之间的通讯。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏神威云数据科技有限公司,未经江苏神威云数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711353494.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息反馈方法及装置
- 下一篇:一种终端设备的运行状态显示方法及装置