[发明专利]日志结构化处理方法及装置有效
申请号: | 202010810640.4 | 申请日: | 2020-08-13 |
公开(公告)号: | CN111930701B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 崔林 | 申请(专利权)人: | 中国工商银行股份有限公司;工银科技有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F18/22;G06F40/216 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;周永君 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 结构 处理 方法 装置 | ||
1.一种日志结构化处理方法,其特征在于,包括:
获取原始日志,并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式;
根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;
根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;
根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度;
若所述相似度大于预设阈值,则确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
2.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
分别对所述原始日志、采用所述预设的标识替换所述不相同的位置处的token后的所述原始日志以及所述原始日志中所述不相同的位置处的原单词以MAPPING结构进行存储。
3.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
在所述第二相似日志模式中采用所述预设的标识替换所述不相同的位置处的token,以对所述第二相似日志模式进行更新。
4.根据权利要求1所述的日志结构化处理方法,其特征在于,所述通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式,包括:
若已有的日志模式中存在与所述原始日志长度相同的日志模式,通过将相同位置处的单词进行对比得到所述原始日志与所述长度相同的日志模式之间相同单词的数量;
若所述相同单词的数量占所述原始日志的单词总量的比例大于预设的第一比例,则确定所述长度相同的日志模式为所述第一相似日志模式。
5.根据权利要求4所述的日志结构化处理方法,其特征在于,所述通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量确定所述原始日志对应的第一相似日志模式,还包括:
若已有的日志模式中不存在与所述原始日志长度相同的日志模式,则分别提取所述原始日志与已有的各日志模式的最大公共单词串;
若所述原始日志与某个日志模式的最大公共单词串中的单词数量占所述原始日志的单词总量和该日志模式的单词总量两者中较小者的比例大于预设的第二比例,则确定该日志模式为所述第一相似日志模式。
6.根据权利要求1所述的日志结构化处理方法,其特征在于,所述根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token,包括:
将所述最大公共单词串中的每个单词分别作为一个token;
将所述原始日志和所述第一相似日志模式中的夹在所述最大公共单词串中相邻两个单词之间的所有单词作为一个token。
7.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
若无法查找到所述原始日志对应的第一相似日志模式,则将所述原始日志确定为一个新的日志模式。
8.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
若所述原始日志与多个所述第一相似日志模式的相似度均大于所述预设阈值,则确定多个所述第一相似日志模式中长度最短的第一相似日志模式为所述原始日志对应的第二相似日志模式。
9.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
使用史密斯-沃特曼算法提取所述原始日志与所述第一相似日志模式的最大公共单词串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司;工银科技有限公司,未经中国工商银行股份有限公司;工银科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010810640.4/1.html,转载请声明来源钻瓜专利网。