[发明专利]一种基于图结构的日志聚类方法有效
申请号: | 201510781245.7 | 申请日: | 2015-11-13 |
公开(公告)号: | CN105468677B | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 吕雁飞;王树鹏;张鸿;丁煜;樊冬进;肖东方;郑亚松;周晓阳;何慧虹;史亮 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 11271 北京安博达知识产权代理有限公司 | 代理人: | 徐国文<国际申请>=<国际公布>=<进入 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。 | ||
搜索关键词: | 一种 基于 结构 日志 方法 | ||
【主权项】:
1.一种基于图结构的日志聚类方法,其特征在于,所述方法包括:基于文本分词、向量相似度以及对最大连通子图日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;/n所述获取特征库包括下述步骤:/n(1)将原始日志结构化,生成结构化日志数据;/n(2)构建分词库;/n(3)依据词库将结构化的日志向量化;/n(4)删除重复的日志向量;/n(5)确定日志相似关系图,生成各个类别包含的日志向量集合;/n(6)构建特征库;/n所述步骤(5)中,确定日志相似关系图包括:将去重后的日志向量映射为图中的一个点,计算点与点之间的相似度;/n若两个日志向量相似,则所述日志向量之间存在一条边;/n所述判定相似度包括,设A和B分别表征两个日志向量A=(a1,a2,…,am),B=(b1,b2,…,bn);LCS({A,B})为向量A和B的最长公共子序列;若该最长公共子序列的长度与日志向量A和B比值皆高于经验阈值TH,则为相似,其表达式为:/n /n所述步骤(6)中,构建特征库包括:各个日志类别的特征为该类别包含的所有日志向量的最长公共子序列;设第i类集合Ri={S1,S2,…,Sp},LCS(Ri)为第i类中所有日志向量的最长公共子串,wi为第i类的特征,其中wi=LCS(Ri);/n输入每个日志类别所包含的日志向量集合,输出特征库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510781245.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种事件调度系统
- 下一篇:一种立体车库升降系统的导向结构