[发明专利]日志模板提取方法及装置在审
申请号: | 201911215541.5 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111160021A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 王琛 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/186;G06F16/17 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 颜晶 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 模板 提取 方法 装置 | ||
本申请公开了一种日志模板提取方法及装置,属于计算机技术领域。所述方法包括:确定日志的多行日志记录中每行日志记录的局部敏感哈希码;确定至少一个第一日志记录组,不同所述第一日志记录组包括所述日志中的不同行日志记录;每个所述第一日志记录组包括的所有日志记录具有相同的局部敏感哈希码;通过对所述至少一个第一日志记录组中每个第一日志记录组进行处理,得到所述日志的日志模板。本申请解决了目前的日志模板提取方法的运算代价较大的问题,本申请应用于日志的日志模板提取。
本申请要求于2019年10月12日提交的申请号为201910969835.0、发明名称为“日志模式提取的方法、装置、服务器及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,特别涉及一种日志模板提取方法及装置。
背景技术
通过在软件源代码中填加的一些特定的伪代码,可以将软件运行的实时状态记录在文本中,该文本称为日志(logs)。软件开发者(或运维工作人员)可以通过阅读日志,掌握软件运行的实时情况。
日志包括多行日志记录(也称日志语句),每一行日志记录用于记录软件运行时的一个事件,日志中的日志记录通常具有隐含的日志模板(schema),即该记录本身的模式或格式。基于日志的日志模板的不同,日志可以分为同质化日志(Homologous logs)和异质化日志(Heterogeneous logs)两类。同质化日志是指,日志中所有行日志记录的日志模板相同;异质化日志是指,日志中的各行日志记录没有统一的日志模板。通过识别日志的日志模板可以实现日志中关键数据的快速检索等功能。
目前,对于异质化日志,提取其日志模板的方法如下:将该行日志记录进行分词(tokenization),得到多个词条(tonken);基于每行日志记录的分词结果,对日志中的日志记录进行层次聚类(Hierarchical Clustering),得到多类日志记录;对每类日志记录进行模板提取,将得到的多类日志记录的日志模板作为异质化日志的日志模板。
但是,通过聚类(Clustering)处理需要进行多次运算才能得到多类日志记录,运算代价较大。
发明内容
本申请实施例提供了一种日志模板提取方法及装置,能够解决目前的日志模板提取方法的运算代价较大的问题。所述技术方案如下:
第一方面,提供一种日志模板提取方法,所述方法包括:
确定日志的多行日志记录中每行日志记录的局部敏感哈希码;确定至少一个第一日志记录组,不同所述第一日志记录组包括所述日志中的不同行日志记录;每个所述第一日志记录组包括的所有日志记录具有相同的局部敏感哈希码;通过对所述至少一个第一日志记录组中每个第一日志记录组进行处理,得到所述日志的日志模板。
通过每行日志记录的局部敏感哈希码进行日志记录的分组,而局部敏感哈希码又可以反映对应的不同行日志记录的相似度,如此分组达到了与聚类处理相同的效果,从而有效降低了运算复杂度。
并且,本申请实施例中,局部敏感哈希码是日志记录本身的特征,在获取每行日志记录的局部敏感哈希码时,无需考虑其他行日志记录。从而实现了日志中各行日志记录在分组过程中的去相关。如此,对于一个日志,其多行日志记录的分组过程可以并行执行,有效减少运算时延,提高运算效率。
当第一日志记录组有多组时,可以通过对分别每个所述第一日志记录组进行处理,得到所述日志的日志模板。如此,对于各个第一日志记录组的处理过程可以并行执行,从而减少运算时延,每次执行处理过程时所需要运算的数据量远远小于日志整体的数据量,有效降低运算代价,同时提高运算效率。
在一种可能实现中,所述确定日志的多行日志记录中每行日志记录的局部敏感哈希码,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911215541.5/2.html,转载请声明来源钻瓜专利网。