[发明专利]一种系统故障预警方法和系统有效
申请号: | 201510634318.X | 申请日: | 2015-09-29 |
公开(公告)号: | CN105183619B | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 郭磊涛 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F11/32 | 分类号: | G06F11/32 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 系统故障 预警 方法 系统 | ||
技术领域
本发明涉及计算机软件技术领域,特别是涉及一种系统故障预警方法和一种系统故障预警系统。
背景技术
分布式系统(Distributed System)是建立在网络之上的软件系统。在分布式系统中,特别是大型分布式系统,如Hadoop集群系统,通过预先设置监控阈值,然后,对系统节点服务器进行周期性的监控,当监控指标达到监控阈值时,对系统节点服务器进行故障预警。
但是,这种系统节点故障预警方式只有在监控指标达到预置阈值时,才能对系统节点服务器进行故障预警。一方面,当系统节点服务器已经存在故障,但监控指标尚未达到监控阈值时,无法对节点服务器故障进行有效的预警,从而影响系统的正常运行,例如,当集群中某个节点服务器的磁盘出现坏道故障时节点服务器的吞吐量将会下降,但未达到预先设置的监控指标,系统则无法发出节点服务器故障预警。另一方面,由于无法通过系统告警快速的发现已发生故障的节点,使得故障节点得不到及时的维护,从而影响系统的稳定运行。
发明内容
本发明实施例所要解决的技术问题是提供一种系统故障预警方法,以对系统中故障节点设备快速、有效的预警。
相应的,本发明实施例还提供了一种系统故障预警系统,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种系统故障预警方法,包括:获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;依据所述告警类型确定所述故障节点设备对应的相关节点设备;对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
可选的,在获取故障节点设备的告警信息之前,还包括:将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
可选的,依据所述告警类型确定所述故障节点设备对应的相关节点设备,包括:依据所述告警类型确定所述故障节点设备的至少一种标签;针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
可选的,对所述相关节点设备进行检测,包括:针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;分别对所述性能检测项进行检测,确定所述性能检测项的检测值;检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
可选的,对所述相关节点设备进行检测之前,还包括:在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备进行检测的步骤。
可选的,对检测异常的相关节点设备进行故障预警,包括:对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
本发明实施例还公开了一种故障预警系统,包括:告警获取模块,用于获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;相关节点检测模块,用于依据所述告警类型确定所述故障节点设备对应的相关节点设备;预警模块,用于对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
可选的,还包括:标签标注模块,用于将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
可选的,所述告警获取模块,包括:标签获取子模块,用于依据所述告警类型确定所述故障节点设备的至少一种标签;相关节点查找子模块,用于针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
可选的,所述预警模块,包括:检测项确定子模块,用于针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;检测值确定子模块,用于分别对所述性能检测项进行检测,确定所述性能检测项的检测值;异常检测子模块,用于检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510634318.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多线程的日志管理方法及系统
- 下一篇:脚本录制系统及方法