[发明专利]一种日志解析方法有效

申请号：	202010357343.9	申请日：	2020-04-29
公开（公告）号：	CN111538639B	公开（公告）日：	2023-08-18
发明（设计）人：	全哲;江小斐;肖桐	申请（专利权）人：	湖南大学
主分类号：	G06F11/30	分类号：	G06F11/30;G06F16/33;G06F16/35;G06F18/23;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08
代理公司：	深圳市兴科达知识产权代理有限公司 44260	代理人：	王翀;阳江军
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种日志解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种日志解析方法。本发明采用ELMo模型训练低维词向量，其中词向量用于表示日志信息和用于日志聚类，解析树用于提升分类的效率和实际效果，解决了现有日志解析方法，普适性差、复杂度高、不能应用于大规模日志数据中等技术问题。

技术领域

本发明涉及一种日志解析方法，属于信息技术领域。

背景内容

日志在现代计算机系统中十分常见，它通常记录着系统运行时的各种状态，在系统后期维护中，也十分依赖于系统日志，系统日志解析的一个典型过程是将非结构化日志解析为结构化数据和提取日志模板，然后应用数据挖掘和机器学习技术，从解析的结构化数据构建工作流模型。现在越来越多的应用程序需要在线监控和处理。因此，需要一个流方法在线解析日志。

目前日志解析通常的做法分为以下几种：

1.基于Apriori算法，挖掘频繁项集，在日志数据集中查找频繁的单词和模式。他们认为，频繁出现的单词更可能是经常出现的部分。他们的方法首先识别频繁词，然后根据每个日志消息中包含的频繁词形成不同的日志集合，最后为每个集合创建日志模板。一种改进的方法称为LogCluster于2015年提出，最近被提出用来解决词语位置敏感性问题。然而，这些基于Apriori算法需要遍历整个日志记录几次，效率不够高。

2.从原始程序源代码，日志打印语句中来获取日志模板。但该方法需要系统开源，且在庞大的系统中寻找打印语句也难以实现，因此该方法也并不适于广泛应用。

3.Fu et al.等人提出了加权编辑距离方法，该方法用成对加权编辑距离对日志条目进行聚类，然后使用不同内容的数量和每个位置的熵等几种启发式方法进行递归分割。

4.LogTree是一种基于记录日志记录的格式和结构信息的去构建半结构化日志记录的方法，它利用应用树结构从原始日志中提取系统事件。该方法只适用于特定系统的日志信息，普适性性较差。

5.Drain是一种在线日志解析方法，它利用一个固定深度的解析树来指导日志模板的搜索，该方法假定了相同模板的日志记录有着同样单词数量，且通过字符相似性来比较日志记录的相似性，因此该方法只适用于特定系统，普适性不高。

上述方法都不能很好地考虑日志数据的语义信息，例日志记录A和日志记录B，A为：Command Failed on:node-235、B为：Command Success on:node-235，上面常见的方法在提取日志模板未能很好考虑到日志记录的语义信息，从而把A和B划分到相同模板，基于此本方法采用双向语言模型能够充分考虑到日志数据的语义信息。

名词解释：

ELMo模型:基于语言模型的词嵌入模型

Softmax:逻辑回归模型

LSTM:长短期记忆人工神经网络

发明内容

本发明克服现有技术存在的不足，本发明公开了一种日志解析方法。本发明采用EMLo模型训练低维词向量，其中词向量用于表示日志信息和用于日志聚类，解析树用于提升分类的效率和实际效果，解决了现有日志解析方法，普适性差、复杂度高、不能应用于大规模日志数据中等技术问题。

为实现上述目的，本发明所采用的技术方案为：

一种日志解析方法，包括离线日志解析过程和在线日志解析过程；

离线日志解析过程如下所示：

步骤1)、对日志记录进行预处理：去除重复日志记录并将变量替换为特殊字符；

步骤2)、基于预处理后的日志记录，构建词典；

步骤3)、训练得到的日志向量化模型，通过日志向量化模型对日志记录向量化；