[发明专利]一种分布式数据库故障预警方法、装置、设备和存储介质在审
申请号: | 202011205439.X | 申请日: | 2020-11-02 |
公开(公告)号: | CN112307123A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 王天宇;刘远;郭颂 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F11/32;G06F11/34 |
代理公司: | 济南知来知识产权代理事务所(普通合伙) 37276 | 代理人: | 曹丽 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据库 故障 预警 方法 装置 设备 存储 介质 | ||
本发明公开了一种分布式数据库故障预警方法、装置、设备和存储介质,分布式数据库故障预警方法,包括:接收统计模块发送的第一信号、第二信号,当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值;接收预测模块发送的第三信号、第四信号,当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值;当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。实现更加准确的对数据库未来可能发生的故障进行预警,从而避免当故障发生时恢复速度慢造成的损失。
技术领域
本发明涉及分布式数据库故障预警,具体为一种分布式数据库故障预警方法、装置、设备和存储介质。
背景技术
分布式数据库在集群负载较高时均会出现处理效率降低的现象,此时极容易造成集群无法正常使用,一旦集群处于这种状态,恢复起来耗费时长较多,会对业务造成很大的影响,尤其是在目前互联网直播、网络购物平台销售物品过程中,将会给使用者带来巨大损失,单纯设置报警阈值,而且布式数据库集群的负载可能受到多种因素的影响,并不能做到准确的对集群可能出现的状态做出预警,虽然这种局限可以依靠放低预警标准进行一定程度掩盖,但同时也会造成很多的误报警,因此,提前预知集群负载较高的发生,成为亟待解决的问题。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种分布式数据库故障预警方法、装置、设备和存储介质,解决目前存在的问题。
为达到上述目的,本发明提供的技术方案如下:
根据本发明的一个方面,一种分布式数据库故障预警方法,包括:
接收统计模块发送的第一信号、第二信号,当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值;
接收预测模块发送的第三信号、第四信号,当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值;
当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。
进一步的,所述第一信号、第二信号发送过程为:
设分布式数据库集群中节点数为N,每个节点的cpu数为M;
所述统计模块统计分布式数据库集群中task_info总的task数和long_task数;
当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号,否则生成并发送第二信号。
进一步的,所述第三信号、第四信号发送过程为:
预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势
当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送第三信号,否则生成并发送第四信号。
进一步的,所述预测模块提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练,利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测,t2可取一周、多周或一个月。
进一步的,所述第一阈值为40%-60%;
和/或
所述第二阈值为100*N,其中,N=分布式数据库集群中节点数;
和/或
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011205439.X/2.html,转载请声明来源钻瓜专利网。