[发明专利]一种基于图结构的日志聚类方法有效

专利信息
申请号: 201510781245.7 申请日: 2015-11-13
公开(公告)号: CN105468677B 公开(公告)日: 2019-11-19
发明(设计)人: 吕雁飞;王树鹏;张鸿;丁煜;樊冬进;肖东方;郑亚松;周晓阳;何慧虹;史亮 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 11271 北京安博达知识产权代理有限公司 代理人: 徐国文<国际申请>=<国际公布>=<进入
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 结构 日志 方法
【说明书】:

发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。

技术领域

本发明涉及文本聚类领域,具体涉及一种基于图结构的日志聚类方法。

背景技术

随着信息技术的飞速发展和集群规模的不断扩大,随之产生海量日志数据,然而却没有对日志数据进行有效的分析与挖掘。日志数据记录了系统的运行信息,挖掘日志数据具有重要意义,例如通过分析日志数据我们可以构建智能运维系统,完成故障定位、故障预警等功能。对日志进行精准的类别标记,是日志数据挖掘的重要方向。基于此我们通过对海量日志聚类,自动识别日志合适的类别数目。通过提取各类别特征,生成日志类别特征库,并根据特征库对新日志进行类别标记。其中,日志聚类方法的选择是重中之重。传统的聚类算法并不能完成海量日志聚类的需求。例如传统的K-Means、K-Medoid聚类算法,要求指定聚类的个数,不能自动识别日志合适的类别数目。传统的Denclue聚类算法为了得到较佳的聚类效果,需要经过不断的实验来获得合适的聚类数目,参数难以控制,计算量过大,且聚类不能保证得到真实的类别数目。因此需要探索新的日志聚类模型。

发明内容

为克服上述缺陷,本发明提供一种基于图结构的日志聚类方法,依据类别特征知识库可对日志进行分类,大大提高了面对海量日志聚类的精确度。

为了实现上述发明目的,本发明采取如下技术方案:

一种基于图结构的日志聚类方法,所述方法包括:基于文本分词、向量相似度以及对最大连通子图日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记。

优选的,所述获取特征库包括下述步骤:

(1)将原始日志结构化,生成结构化日志数据;

(2)构建分词库;

(3)依据词库将结构化的日志向量化;

(4)删除重复的日志向量;

(5)确定日志相似关系图,生成各个类别包含的日志向量集合;

(6)构建特征库。

进一步地,所述步骤(1)中,生成结构化日志数据包括:输入原始日志,对半结构化的原始日志按列结构化,输出结构化日志数据。

进一步地,所述步骤(2)中,构建分词库包括,输入结构化日志数据,获取所述结构化日志数据包含的所有分词,并依据预设规则删除干扰词,生成日志数据分词库,该分词库中每个分词对应一个编号;其中,

所述干扰词,包括IP地址、端口号和16进制数字。

进一步地,所述步骤(3)中,日志向量化包括,将包含日志核心内容的字段进行分词,将获取的分词与词库相匹配,并用词库中分词编号代替分词,忽略未包含在词库中的分词,并保持分词原有的相对顺序,将文本转化为向量。

进一步地,所述步骤(5)中,确定日志相似关系图包括:将去重后的日志向量映射为图中的一个点,计算点与点之间的相似度;

若两个日志向量相似,则所述日志向量之间存在一条边。

进一步地,所述判定相似度包括,设A和B分别表征两个日志向量A=(a1,a2,…,am),B=(b1,b2,…,bn);LCS({A,B})为向量A和B的最长公共子序列;若该最长公共子序列的长度与日志向量A和B比值皆高于经验阈值TH,则为相似,其表达式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510781245.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top