[发明专利]一种基于向量化的日志模板提取方法和系统有效
申请号: | 201910431788.4 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110175158B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 全哲;肖桐;周旭;唐卓;陈建国;姜文君;李肯立;李克勤 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/2458;G06F40/194;G06F40/186 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 量化 日志 模板 提取 方法 系统 | ||
本发明公开了一种基于向量化的日志模板提取方法,其结合了离线日志模板提取和在线日志模板提取两个过程,离线日志模板提取先将所有的日志记录向量化后映射到一个高维向量空间,然后对所有向量进行聚类以实现对日志记录的分类,最后从每个类中提取出其中所有日志记录的最长公共单词子序列并用通配符替代不同的部分以作为该类的模板,在线日志模板提取基于离线提取的结果,对随着时间推移新产生的日志记录逐条进行处理,计算其向量化后的结果与已知各模板向量化后的结果的距离。本发明能够解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。
技术领域
本发明属于计算机数据挖掘领域,具体地说,涉及一种基于向量化的日志模板提取方法和系统。
背景技术
计算机系统在运行过程中产生的各种日志是获取计算机系统健康和操作状态的重要信息来源,计算机系统的管理员和安全分析员在计算机系统出现故障和安全事件时都非常依赖日志信息,日志为计算机系统异常和故障的诊断甚至预测提供了重要的信息支撑。然而,随着计算机系统规模的不断增长,其产生的日志的规模也在不断增长,这使得人工查看日志变得非常繁琐,而且容易出错。因此,自动日志分析成为一个非常重要的研究课题,受到了大量研究人员的关注。其中,如何提取日志模板是一个重要的研究点。
现有的日志模板提取方法主要是无监督类型的方法,常用的有:(1)基于频繁项集挖掘的方法,这类方法通过挖掘日志文件中的频繁项集(频繁出现的单词的集合)并结合聚类以生成日志模板;然而,这类方法中的集合管理代价即使在日志模板数量较少的情况下也比较高昂,因此不适合处理大量的日志;(2)迭代分割日志挖掘方法(见Makanju A,Zincir-Heywood A N,Milios E E.Clustering event logs using iterativepartitioning[C].Acm Sigkdd International Conference on Knowledge DiscoveryData Mining.DBLP,2009),该方法先对日志记录集合进行三步划分(第一步按日志记录包含的符号的数量进行划分,第二步按符号的位置进行划分,第三步按两个符号之间的双射关系进行划分)以形成不同的日志记录簇,然后从每一个日志记录簇提取一个日志模板;但该方法同样存在问题,其以假设对应同一日志模板的所有日志记录具有相同的符号长度为先决条件,因此不具有普适性;(3)从源代码中提取日志打印格式作为日志模板的方法,该方法直接对相关系统的源代码进行分析,根据日志打印语句生成日志模板;但由于并不是所有的系统都允许访问源代码,因此该方法也不具有普适性;(4)在线日志模板提取方法,这类方法支持动态日志模板生成,克服了离线日志模板提取方法所存在的不能及时对日志记录进行分析以及模板更新代价高昂的缺陷,但是现有的该类方法以纯粹字符串的方式对日志记录进行处理,因而复杂性比较高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于向量化的日志模板提取方法和系统,其目的在于,引入向量化的方式对日志记录进行处理,并结合离线日志模板提取和在线日志模板提取两个过程,解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于向量化的日志模板提取方法,包括:
一、离线日志模板提取过程,包括步骤:
(1)从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录。
(2)对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C1,C2,…,Cm,其中m表示聚类操作所得到的簇的总个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431788.4/2.html,转载请声明来源钻瓜专利网。