[发明专利]一种基于在线层次聚类的日志模板抽取方法有效
申请号: | 201910201303.2 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109981625B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 钱叶魁;杨瑞朋;黄浩;杜江;雒朝峰;李宇翀;宋彬杰 | 申请(专利权)人: | 中国人民解放军陆军炮兵防空兵学院郑州校区 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 张然 |
地址: | 450052 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 在线 层次 日志 模板 抽取 方法 | ||
1.一种基于在线层次聚类的日志模板抽取方法,其特征在于,包括:
进行日志预处理;
对预处理后的日志进行日志在线向量化,利用分布式的词向量表示方法对日志进行在线向量化,在线层次聚类算法对原始日志聚类,生成日志模板;
日志在线层次聚类包括:
在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点,根节点聚类覆盖了全部的所有数据点,每个叶子节点即对应一条日志向量,任意一个内部节点对应一个类簇,类簇中的元素是以内部节点为祖先节点的所有叶子节点;日志在线层次聚类算法包括:
第1步:插入新日志向量,遍历当前聚类树,比较新插入日志向量节点l’与所有已插入的所有日志向量的叶子节点的距离,找到距离最近的日志向量l;有节点被遮蔽后对树的调整,直接插入日志向量节点l’,使得日志向量节点l和日志向量节点l’有共同的父节点;对于直接插入节点对树的调整,调整树的结构,使得日志向量节点l和日志向量节点l’有共同的父节点;
第2步:判断是否有节点被遮蔽,判断依据为公式(5):
其中,v′为v的兄弟节点,lvs(v′)表示内部节点v′包含的所有日志向量的集合,a为v父节点的兄弟节点,x∈lvs(v),v为内部节点;
第3步:对聚类树中不平衡的树进行基于平衡二叉树的旋转;
进行日志在线模板抽取。
2.如权利要求1所述的基于在线层次聚类的日志模板抽取方法,其特征在于,所述日志预处理包括:对原始日志数据集进行数据清洗,用正则表达式匹配去掉时间以及IP地址,对日志进行分词和去停用词。
3.如权利要求1所述的基于在线层次聚类的日志模板抽取方法,其特征在于,日志在线模板抽取包括:
步骤a,判断新加入当前类簇的日志和当前类簇中的已有模板的长度是否相同,若相同,转入步骤b,若不同,转入步骤c;
步骤b,对新加入类簇的日志,和当前类簇中长度相同的模板逐词比较,判断是否为同一词,若相同,模板中的该位置保留该词;若不同,模板中该位置用*代替,转入步骤a;
步骤c,以新加入日志作为当前类簇中的一个新的模板,转入步骤a。
4.如权利要求1所述的基于在线层次聚类的日志模板抽取方法,其特征在于,调整树的结构,使得日志向量节点l和日志向量节点l’有共同的父节点包括:通过包围盒的方法,每个包围盒包含一个以某个内部节点为祖先节点的所有叶子节点;插入新日志向量节点l’时,比较与内部节点的边界距离,用dmin(l′,v)2表示新插入日志向量l’与内部节点v最小距离的平方,用于dmax(l′,v)2表示新插入日志向量l’与内部节点v的最大距离的平方,公式(3)、(4)中j表示第j维,vj-、vj+表示内部节点v在第j维度上坐标的最小值和最大值,lj′表示新插入日志向量l′在第j维上坐标的值;
5.如权利要求1所述的基于在线层次聚类的日志模板抽取方法,其特征在于,对于二叉树中节点l无兄弟节点,直接插入l’,使得l和l’有共同的父节点;对于二叉树中的节点l已经有兄弟节点,调整树的结构,使得l和l’有共同的父节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军炮兵防空兵学院郑州校区,未经中国人民解放军陆军炮兵防空兵学院郑州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910201303.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:入侵检测方法、装置及存储介质
- 下一篇:一种账户认证方法及装置