[发明专利]一种流式在线日志解析方法有效
申请号: | 201810805285.4 | 申请日: | 2018-07-20 |
公开(公告)号: | CN109189840B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 王晨旭;赵志远;饶巍;陶敬;马小博;秦涛 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/18 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 日志 解析 方法 | ||
1.一种流式在线日志解析方法,其特征在于:包括如下步骤:
步骤1:对日志文本进行预处理;
步骤2:匹配分区:将日志按照其长度进行分区,即同一长度的日志被分配到同一个分区中,根据日志mi的长度来搜索是否存在匹配的分区P,如果有,则进行步骤3,如果无,则创建一个新的分区Pi,当前日志处理完毕,进行下一条日志的处理;
步骤3:在分区Pi中预匹配日志mi的日志类型tki:将日志mi依次与分区Pi中的日志类型ti求取交集,如果两者的交集长度满足阈值ω,则进行步骤4,如果日志mi与分区Pi中的每一个日志类型都求取交集,并且所有的交集长度都不满足阈值ω,则日志mi被认为是Pi中的一种新的日志类型,直接将日志mi加入分区Pi中,当前日志处理完毕,进行下一条日志的处理;
步骤4:提取日志mi的日志类型与参数:求取日志mi与日志类型tki的最长公共子序列,则最长公共子序列为日志mi的常量部分,日志mi中剩余部分为变量部分;之后跳转步骤1,顺序执行直至所有日志处理完毕,执行步骤5;
步骤5:合并所有分区中的日志类型:一共有n个分区P1-Pn,依次遍历,将所有分区中的日志类型与日志类型集中的日志类型进行比较与添加之后,日志类型集包含了此日志文件所有的日志类型。
2.根据权利要求1所述的一种流式在线日志解析方法,其特征在于:步骤1的具体过程为:去掉日志文本中为变量部分的列,其中,常量部分与变量部分的定义如下:日志中能够作为日志类型的部分被称为常量部分,不能够作为日志类型的部分作为参数,称为变量部分。
3.根据权利要求1所述的一种流式在线日志解析方法,其特征在于:步骤3中,阈值ω的定义如下:
其中,
max(|m|)是一个日志数据集中最长的日志的长度。
4.根据权利要求3所述的一种流式在线日志解析方法,其特征在于:当x=2.64时,tanh(x)≈1,因为日志的长度都大于2.64,所以将tanh(x)进行横向拉伸,以达到根据日志的长度来进行非线性变换阈值ω的目的;最后,tanh(x)的最大值被设置为
5.根据权利要求1所述的一种流式在线日志解析方法,其特征在于:步骤5的具体过程为:每次从分区Pi中取出一个日志类型tki,然后用日志类型tki与日志类型集中的日志类型依次求交集;然后判断求出的交集是否等于当前求交集的两个日志类型之中较短的一个,如果是,则说明这两个日志类型属于同一个类型,合并为一个;如果遍历完日志类型集中已有的所有日志类型,没有与日志类型tki属于同一类型的日志类型,那么日志类型tki作为一个新的日志类型加入到日志类型集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810805285.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于大数据平台的多层业务模型
- 下一篇:一种多数据源访问方法及系统