[发明专利]一种基于向量化的日志模板提取方法和系统有效
申请号: | 201910431788.4 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110175158B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 全哲;肖桐;周旭;唐卓;陈建国;姜文君;李肯立;李克勤 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/2458;G06F40/194;G06F40/186 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于向量化的日志模板提取方法,其结合了离线日志模板提取和在线日志模板提取两个过程,离线日志模板提取先将所有的日志记录向量化后映射到一个高维向量空间,然后对所有向量进行聚类以实现对日志记录的分类,最后从每个类中提取出其中所有日志记录的最长公共单词子序列并用通配符替代不同的部分以作为该类的模板,在线日志模板提取基于离线提取的结果,对随着时间推移新产生的日志记录逐条进行处理,计算其向量化后的结果与已知各模板向量化后的结果的距离。本发明能够解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。 | ||
搜索关键词: | 一种 基于 量化 日志 模板 提取 方法 系统 | ||
【主权项】:
1.一种基于向量化的日志模板提取方法,其特征在于,包括:一、离线日志模板提取过程,包括步骤:(1)从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录。(2)对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C1,C2,…,Cm,其中m表示聚类操作所得到的簇的总个数。(3)对步骤(2)中得到的每个向量簇Ci,找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合Li,提取出其中所有日志记录的最长公共单词子序列,并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分,从而得到该日志记录集合Li的模板ti,其中i∈[1,m]。(4)对步骤(3)得到的每个日志模板ti进行向量化处理,将向量化后的结果tvi称为模板向量,然后计算对应的向量簇Ci中的各个向量与该模板向量tvi的距离并找出最大距离d_maxi。二、在线日志模板提取过程,包括步骤:(5)从日志文件中实时获取新产生的一条日志记录,并对其进行预处理,以得到预处理后的日志记录;然后对预处理后的日志记录进行向量化处理,以得到向量。(6)采用步骤(2)中的聚类算法所使用的距离度量方法计算步骤(5)得到的向量与步骤(4)得到的各个模板向量tvi的距离。(7)从步骤(6)得到的所有距离中找出最小距离,并判断该最小距离是否大于预定的阈值τd,如果是则进入步骤(8),否则进入步骤(9)。(8)将该日志记录本身作为一个新的模板,并对该模板执行与步骤(4)中相同的处理,过程结束。(9)找出步骤(7)中得到的最小距离所对应的模板向量tvclosest,再找出该模板向量tvclosest所对应的模板tclosest,然后计算步骤(5)中预处理后的日志记录与该模板tclosest之间的相似度s,并判断s是否大于预定的阈值τs,如果是,则tclosest就是该日志记录的模板,过程结束,否则进入步骤(10)。(10)用通配符替代步骤(9)中得到的日志模板tclosest与步骤(5)中预处理后的日志记录之间的不同部分,从而得到更新后的日志模板,再对更新后的日志模板进行向量化处理,以得到更新的模板向量,然后用该更新的模板向量替换原始的模板向量tvclosest并重新计算对应的向量簇Cclosest中的各个向量与更新的模板向量之间的距离并找出最大距离d_maxclosest。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910431788.4/,转载请声明来源钻瓜专利网。