[发明专利]一种基于图结构的日志聚类方法有效
申请号: | 201510781245.7 | 申请日: | 2015-11-13 |
公开(公告)号: | CN105468677B | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 吕雁飞;王树鹏;张鸿;丁煜;樊冬进;肖东方;郑亚松;周晓阳;何慧虹;史亮 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 11271 北京安博达知识产权代理有限公司 | 代理人: | 徐国文<国际申请>=<国际公布>=<进入 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 日志 方法 | ||
1.一种基于图结构的日志聚类方法,其特征在于,所述方法包括:基于文本分词、向量相似度以及对最大连通子图日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;
所述获取特征库包括下述步骤:
(1)将原始日志结构化,生成结构化日志数据;
(2)构建分词库;
(3)依据词库将结构化的日志向量化;
(4)删除重复的日志向量;
(5)确定日志相似关系图,生成各个类别包含的日志向量集合;
(6)构建特征库;
所述步骤(5)中,确定日志相似关系图包括:将去重后的日志向量映射为图中的一个点,计算点与点之间的相似度;
若两个日志向量相似,则所述日志向量之间存在一条边;
所述判定相似度包括,设A和B分别表征两个日志向量A=(a1,a2,…,am),B=(b1,b2,…,bn);LCS({A,B})为向量A和B的最长公共子序列;若该最长公共子序列的长度与日志向量A和B比值皆高于经验阈值TH,则为相似,其表达式为:
所述步骤(6)中,构建特征库包括:各个日志类别的特征为该类别包含的所有日志向量的最长公共子序列;设第i类集合Ri={S1,S2,…,Sp},LCS(Ri)为第i类中所有日志向量的最长公共子串,wi为第i类的特征,其中wi=LCS(Ri);
输入每个日志类别所包含的日志向量集合,输出特征库。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,生成结构化日志数据包括:输入原始日志,对半结构化的原始日志按列结构化,输出结构化日志数据。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,构建分词库包括,输入结构化日志数据,获取所述结构化日志数据包含的所有分词,并依据预设规则删除干扰词,生成日志数据分词库,该分词库中每个分词对应一个编号;其中,
所述干扰词,包括IP地址、端口号和16进制数字。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,日志向量化包括,将包含日志核心内容的字段进行分词,将获取的分词与词库相匹配,并用词库中分词编号代替分词,忽略未包含在词库中的分词,并保持分词原有的相对顺序,将文本转化为向量。
5.根据权利要求1所述的方法,其特征在于,所述步骤(5)中,生成各个类别包含的日志向量集合包括;
将日志相似关系图中的每个最大连通子图定义为一个类,每一类包含的日志向量即该最大连通子图包含的点。
6.根据权利要求1所述的方法,其特征在于,所述对海量日志进行类标记,具体步骤包括:
实时采集日志数据,将日志结构化,输出结构化日志数据;
对日志核心内容的字段进行分词,按预设规则去除干扰词;将日志分词集合中的每个词和原词库相匹配,若存在新词,则将该新词添加至词库,并输出新词库;
所述对日志进行结构化包括:
输入新词库和日志数据;
将日志数据由文本转为向量;
将包含日志内容的字段进行分词,将所述分词与词库匹配,用词库中分词的编号代替分词,忽略未包含词库中的分词,并保持分词原有的相对顺序,将文本转化为向量并输出;
所述日志类别匹配包括:
输入日志向量和通过日志聚类获得的特征库;
计算日志向量与特征库中各类别特征的相似度;若日志向量和特征wi符合相似规则,则将该日志标记为第i类,输出携带标记的日志;
若日志与特征库中任意类别特征皆不相似,则匹配失败;将该日志存放于故障知识库,并定期重新进行聚类,生成新的类别特征,以更新特征库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510781245.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种事件调度系统
- 下一篇:一种立体车库升降系统的导向结构