[发明专利]运维报警系统及方法在审
申请号: | 201611155555.9 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106844138A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 胡嘉伟;许晓炜 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32;G06N99/00 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 报警 系统 方法 | ||
技术领域
本发明涉及计算机技术领域,特别是涉及一种运维报警系统及方法。
背景技术
随着网络的快速发展,出现了需要为大量用户服务的网络系统。这些网络系统具有分布在各个地址的大量计算机(服务器)或计算资源,而这些计算机或计算资源通常构建为集群的方式来为用户服务。随着提供服务的计算机或计算资源越来越多,对这些计算机或计算资源的各项指标进行监控并在出现故障时及时、准确地进行报警是非常重要的问题。
以数据中心系统为例,需要对数据中心的计算机与计算资源的各项指标进行监控,以此发现数据中心系统发生的异常状况,使运维人员能够及早排除故障,保证系统的稳定运行。目前的监控方法主要为运维人员人工查看运维指标或采取设定固定阈值的方式对指标进行监控。人工查看运维指标除了需要大量人力之外,也极易在大量数据中可能遗漏的异常情况,并且当数据量增涨到一定程度之后,依靠人工查看的方式也变得不可行。而设定固定阈值进行监控的方法,要求对每一种指标都设置合理的阈值,当指标数量巨大时,该方法显得不太可行。除此之外,设定固定阈值的方式也只能对符合简单规则的异常情况进行报警,在复杂的实际生产环境中,极易产生大量误报。
发明内容
为了避免人工进行运维报警的弊端,本发明实施例提供一种可实现自动运维报警的系统及方法。
根据本发明实施例的一个方面,提供一种运维报警系统,用于对网络系统中设备或计算资源的指标数据进行检测和异常报警,所述系统包括:离线模型训练模块、在线检测模块和报警模块,其中:所述离线模型训练模块,用于基于机器学习对所述在线检测模块所使用的检测算法所需的参数进行更新,以及,基于历史数据的分析结果对指标数据的分布进行预测;所述在线检测模块,用于接收待检测的指标数据,并基于指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;所述报警模块,针对所述在线检测模块的检测结果,基于预置的报警规则确定是否报警,。
优选的,所述离线模型训练模块基于历史数据的分析结果,对各指标数据在不同时刻的取值分布情况进行预测,以及,对具有周期性的指标数据在未来数个周期内的期望数值进行预测。
优选的,所述离线模型训练模块,从离线数据库中获取机器学习所需的指标数据,根据所获取的指标数据确定所述在线检测模块所使用的检测算法所需的参数,并将确定的所述在线检测模块所使用的检测算法所需的参数存储于模型参数数据库,以及,将针对指标数据的分布预测结果存储在长期预测数据库。
优选的,所述在线检测模块还用于,根据所述报警模块返回的用户针对指标数据反馈的异常被忽略的反馈信息,针对所述指标数据更改检测算法,采取新的检测算法对指标数据进行重新检测。
优选的,所述在线检测模块,从在线缓存数据库中获取所使用的检测算法所需的指标数据,以及,将检测结果中的异常记录以及异常记录的特征描述信息存储在异常数据库中。
优选的,所述报警模块,针对所述在线检测模块检测的异常,根据预置的报警规则判断是否进行报警,以及,根据用户反馈,并结合所述异常记录以及异常记录的特征描述信息,更新报警规则。
优选的,所述报警模块,从报警模型数据库获取半监督学习算法的参数,将报警的指标数据的相关信息存储在报警数据库,以及,将用户反馈存储于用户反馈数据库。
根据本发明实施例的另一个方面,提供一种运维报警方法,用于对网络系统中设备或计算资源的指标数据进行检测和异常报警,所述方法包括:接收待检测的指标数据,并基于预先根据历史数据的分析结果对指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;针对检测结果,基于预置的报警规则确定是否报警。
优选的,所述方法还包括:在报警后接收用户反馈,并根据所述用户反馈更新所述报警规则。
优选的,所述方法还包括:基于机器学习对所述线检测模块所使用的检测算法所需的参数进行更新。
优选的,所述方法还包括:基于历史数据的分析结果,对各指标数据在不同时刻的取值分布情况进行预测,以及,对具有周期性的指标数据在未来数个周期内的期望数值进行预测,得到所述预测结果。
优选的,所述方法还包括:根据返回的用户针对指标数据反馈的异常被忽略的反馈信息,针对所述指标数据更改检测算法,采取新的检测算法对指标数据进行重新检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155555.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁扣连接活动销自锁升降侧轴柱筒拖把射流清洗甩干器
- 下一篇:玩具熊(六)