[发明专利]一种日志解析方法有效
申请号: | 202010357343.9 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111538639B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 全哲;江小斐;肖桐 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F16/33;G06F16/35;G06F18/23;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀;阳江军 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 解析 方法 | ||
1.一种日志解析方法,其特征在于,包括离线日志解析过程和在线日志解析过程;
离线日志解析过程如下所示:
步骤1)、对日志记录进行预处理:去除重复日志记录并将变量替换为特殊字符;
步骤2)、基于预处理后的日志记录,构建词典;
步骤3)、训练得到的日志向量化模型,通过日志向量化模型对日志记录向量化;
步骤4)、通过预处理后的日志记录和预处理后的日志记录对应的日志向量,构建日志解析树;
在线日志解析过程:
步骤5)、对实时获取的日志记录,进行预处理:去除重复日志记录和将变量替换为特殊字符;
步骤6)、通过日志向量化模型,对实时获取的日志记录进行向量化;
步骤7)、通过实时获取的日志记录的首单词查找在日志解析树中对应的结点,如果找到对应结点执行步骤8),否则执行步骤9);
步骤8)、进入到根结点后,计算实时获取的日志记录的日志向量与结点中各日志组向量距离最小值,若向量距离最小值大于预设阈值,则新建一个日志组,否则实时获取的日志记录加入到与结点中各日志组向量距离最小的日志组;
步骤9)、新建一个值为实时获取的日志记录的首单词的中间结点,在中间结点新建一个子结点即叶子结点并将实时获取的日志记录作为一个日志组加入到叶子结点中;
步骤10)、更新日志解析树;
步骤11)、重估步骤5)至步骤10)。
2.如权利要求1所述的日志解析方法,其特征在于,所述日志解析树包括位于日志解析树的顶层的根结点,日志解析树底层包含叶子结点,日志解析树中部的结点是中间结点;叶子结点存储了一系列日志组,每个日志组都有三个部分:日志模板、日志模板向量、日志索引;日志模板用于匹配日志组里所有的日志记录,日志模板向量用于将日志模板用向量来表示;日志索引是指日志组的日志记录在日志文件中的索引。
3.如权利要求1所述的日志解析方法,其特征在于,所述日志解析树的深度恒定为2。
4.如权利要求1所述的日志解析方法,其特征在于,所述日志向量化模型通过ELMo的训练得到。
5.如权利要求1所述的日志解析方法,其特征在于,所述日志向量化模型包括训练词向量和生成日志向量;训练词向量使用的是ELMo模型,ELMo模型利用双向语言模型来预训练词的向量表示:
给定一个t1,t2,t3...,tN的词组序列,对于词tk,根据前向语言模型计算得到的词组序列的概率p1(t1,t2,..,tN)如下所示:
tk表示词组序列中的第k个词,1≤k<N;N表示词组序列词的数量;
对于词tk,根据后向语言模型计算词组序列的概率p2(t1,t2,t3...,tN)如下所示:
由式(1)和式(2),得到训练目标函数:
采用LSTM编码词,用第k-1和k+1个词的隐藏层输出预测第k个词,预测的方法是用softmax做一个分类,其中θx是词的向量表示,θs是softmax的参数,分别是前向LSTM和后向LSTM的参数;训练式(3)最大化时,tk的向量为tk训练得到的词向量;
生成日志向量的步骤如下:
基于ELMo模型训练的词向量为每个单词生成对应的词向量,若存在一条由n个单词组成t1,t2,t3...,tn的日志记录l,经由训练好ELMo模型得到对应的词向量即对一条由n个单词t1,t2,t3...,tn组成的日志记录l的向量Vl的计算公式如下:
其中wi表示第i个词向量所占的权重系数;Vti表示第i个词的词向量;Vl表示日志向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010357343.9/1.html,转载请声明来源钻瓜专利网。