[发明专利]海量错误日志的处理方法、装置、电子装置及存储介质有效
申请号: | 202010800467.X | 申请日: | 2020-08-11 |
公开(公告)号: | CN112000502B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张建青;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F16/17;G06F16/18;G06N20/00 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 聂磊 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 错误 日志 处理 方法 装置 电子 存储 介质 | ||
本申请涉及一种海量错误日志的处理方法、装置、电子装置和存储介质。其中,海量错误日志的处理方法包括:获取多个错误日志数据;对多个错误日志数据进行过滤处理,得到多个候选错误日志;利用机器分类模型对多个候选错误日志数据进行分类,得到多种类型的错误日志,并将多种类型的错误日志存储至预设数据库。通过本申请,解决了相关技术中多服务部署的应用系统的海量错误日志数据排错效率低的问题,实现了准确、快速定位到报错服务和报错原因,提高排错效率,减小排错成本的有益效果。
技术领域
本申请涉及计算机技术领域,特别是涉及海量错误日志的处理方法、装置、电子装置及存储介质。
背景技术
近几年来,随着计算机和信息技术的迅猛发展和普及应用,采用微服务架构的应用系统越来越受到欢迎。采用微服务架构的应用系统可拆分出多个可独立构建部署的服务。而服务在运行过程中可能会出现错误并生成错误日志,生成的错误日志供维护人员查看,维护人员可以通过查看服务是否生成错误日志的方法来判断该服务是否报错。现有相关技术中,查看错误日志的方式是直接通过SSH登录服务器查看错误日志,但错误日志本身存在消息多而杂、重复错误多的问题,当错误日志达到TB级及以上数据量时,现有查看错误日志的方法无法满足查看需求,并无法对错误日志的根源点进行精准定位,造成维护人员排错效率低,增加运维成本。
目前针对相关技术中多服务部署的应用系统的海量错误日志数据排错效率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种海量错误日志的处理方法、装置、电子装置及存储介质,以至少解决相关技术中多服务部署的应用系统的海量错误日志数据排错效率低的问题。
第一方面,本申请实施例提供了一种海量错误日志的处理方法,包括:
获取多个错误日志数据;
对所述多个错误日志数据进行过滤处理,得到多个候选错误日志;
利用机器分类模型对所述多个候选错误日志数据进行分类,得到多种类型的错误日志,并将所述多种类型的错误日志存储至预设数据库,其中,所述机器分类模型是根据预设错误日志数据和与所述预设错误日志数据对应的实检错误日志训练得到的。
在其中一些实施例中,所述错误日志数据包括错误级别和日志内容,对所述多个错误日志数据进行过滤处理包括:
在所述多个错误日志数据中检测错误级别相同的多个第一日志数据;
从所述多个第一日志数据中选取所述日志内容一致或相似的多个第二日志数据;
从所述多个第二日志数据中筛选出一个所述第二日志数据,得到一个所述候选错误日志。
在其中一些实施例中,从所述多个第一错误日志数据中选取所述日志内容一致或相似的多个第二错误日志数据包括:
在每一个所述第一错误日志数据的所述日志内容中选取预设数据区间内的日志内容对应的数据字符串;
从所述数据字符串中提取多个第一关键词,得到关键词字符串;
将所述关键词字符串与预设关键词字符串进行对比,并判断所述关键词字符串与所述预设关键词字符串的相似度是否大于预设阈值;
在判断到所述关键词字符串与所述预设关键词字符串的相似度大于预设阈值的情况下,确实所述第一错误日志数据为所述第二错误日志数据。
在其中一些实施例中,所述机器分类模型包括基于自然语言处理的机器学习模型。
在其中一些实施例中,获取多个错误日志数据包括:获取由预设消息队列发布的所述多个错误日志数据,其中,所述预设消息队列发布的所述错误日志数据包括通过日志采集器采集的预设系统产生的错误日志文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010800467.X/2.html,转载请声明来源钻瓜专利网。