[发明专利]一种软件应用服务故障预测及故障自愈的方法及系统在审
申请号: | 202110082882.0 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112749064A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 孙国良 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 刘华平 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 软件 应用服务 故障 预测 自愈 方法 系统 | ||
本发明涉及一种软件应用服务故障预测及故障自愈的方法及系统,其中的方法包括:监控系统对业务系统进行监控;当触发报警时,所述监控系统发送报警到报警控制节点;所述报警控制节点根据预设逻辑进行响应。本发明通过监控系统提前感知到业务系统可能出现的问题,在没有人工干预的情况下,对于即将出现问题的服务进行及时报警及响应,来达到减少因为一个业务问题而引起全部服务的雪崩效应,出现无法对外提供服务的情况。
技术领域
本发明涉及系统故障处理领域,具体涉及一种软件应用服务故障预测及故障自愈的方法及系统。
背景技术
传统应用服务运维工作,都是在应用服务出现故障之后,人工介入处理对应的故障,这个时候业务已经受到了影响,如果后台没有做熔断机制和服务降级,这样情况下会导致服务出现雪崩效应彻底不可用,给业务上带来非常严重的影响!
具体来说,应用服务出现故障后,对应负责人收到报警之后,由运维工程师和对应的开发工程师一同上线,根据日志和服务出现问题的状况决定怎么处理这样的问题!在处理过程中会出现因为因为对应的工程师无法上线处理或者对业务了解不够全面而无法及时的处理问题,导致应用服务的恢复时间过长,服务长时间无法访问的情况。
以上现有的技术手段是事后反应机制,是在应用服务已经出现无法正常提供服务,然后再去处理,这样已经对用户的使用产生了影响!而且还可能因为处理人员无法及时上线处理而导致更长时间的服务无法正常使用的情况。
发明内容
针对上述技术问题,本发明提供一种软件应用服务故障预测及故障自愈的方法及系统。
本发明解决上述技术问题的技术方案如下:
一种软件应用服务故障预测及故障自愈的方法,包括:
监控系统对业务系统进行监控;
当触发报警时,所述监控系统发送报警到报警控制节点;
所述报警控制节点根据预设逻辑进行响应。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述监控系统对业务系统进行监控,具体包括:
将通过filebeat收集到的应用日志传入logstach,由logstach经过预处理之后,再通过Kafka传给ElasticSearch,通过elasticalert对自定义的关键错误字符进行监控。
进一步,所述监控系统对业务系统进行监控,具体包括:
通过skywalking全链路监控系统对业务的内部调用链路进行监控。
进一步,所述监控系统对业务系统进行监控,具体包括:
对通过zabbix模拟用户访问对应的业务进行监控。
进一步,所述监控系统的数量为三路,所述报警控制节点根据预设逻辑进行响应,具体包括:
如果在同一时间段内仅一个监控系统出现报警,则发送报警给对应负责人员,并记录报警;
如果在同一时间段内有两个监控系统出现报警,则发送报警给对应负责人员,检查对应应用系统的负载情况,如果是压力比较大,则自动扩容应用节点;
如果在同一时间段内三个监控系统均出现报警,则发送报警给对应负责人员,自动扩容应用节点之后,自动把所述应用节点从负载均衡摘除、重启,检测服务正常之后,再上线所述应用节点。
为实现上述发明目的,本发明还提供一种软件应用服务故障预测及故障自愈的系统,包括:
监控系统,用于对业务系统进行监控,还用于当触发报警时,发送报警到报警控制节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082882.0/2.html,转载请声明来源钻瓜专利网。