[发明专利]一种基于签名的日志事件提取方法有效
申请号: | 201610696024.4 | 申请日: | 2016-08-20 |
公开(公告)号: | CN106339293B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 于亚男;徐建;张宏;董克源;张航;朱旭超;胡建洪 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏;朱显国 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于签名的日志事件提取方法,由聚类过程、统计检验、迭代过程组成,聚类过程是根据匹配分数将一个数据集合划分为两个分组,并得到两个分组的签名;统计检验过程是根据聚类过程的分组结果以及Anderson‑Darling统计量检验划分是否满足正态分布,判断是否接受分组;迭代过程是对当前未经过聚类过程的分组重复聚类过程和统计检验过程,直至所有分组都不再变化,确定方法的结束条件。本发明针对日志文本的特点,基于签名的方式来对日志文本进行归类,实现日志事件的提取,具有日志事件提取准确率高的特点。 | ||
搜索关键词: | 一种 基于 签名 日志 事件 提取 方法 | ||
【主权项】:
1.一种基于签名的日志事件提取方法,其特征在于,包括:步骤1,聚类过程:将日志集合D随机划分为两个分组,确定日志集合D中词对的整体包含程度Φ(D),根据日志集合中日志数据从一个分组移动至另一个分组时Φ(D)的增量对分组进行更新,得到最优的两个分组以及两个分组的签名;具体为:步骤1‑1,将日志集合D中的日志数据随机划分为两个分组,即第一分组C1和第二分组C2;步骤1‑2,分别计算第一分组和第二分组词对的整体包含程度:对于给定的一个分组C,R(C)表示分组中词对的并集集合,|C|表示该分组中的日志数据的数目,对于R(C)中的任一词对r,N(r,C)表示在分组C中包含该词对r的日志数据的数目,p(r,C)表示分组C中包含词对r的日志数据所占的比例,即
定义Φ(C)为分组C中词对的整体包含程度,即
根据如上定义分别计算Φ(C1)和Φ(C2);步骤1‑3,对于日志集合D有
其中i=1,2,Φ(D)表示日志集合D中词对的整体包含程度;令
表示日志集合D中的一条日志数据X从分组Ci移动到分组Cj时Φ(D)的增量,其中i,j=1,2,i≠j,即定义如下:
其中,{X}表示日志数据X的集合;对于任一日志数据X计算
得到最大值时的j值,将日志数据X从分组Ci移动到分组Cj,更新分组;重复此步骤,直至分组不再变化,得到最优的第一分组C1和第二分组C2;步骤1‑4,分别选择最优的两个分组中出现次数至少为|C|/2的单词构成第一集合S1和第二集合S2,即为第一分组C1和第二分组C2的签名;步骤2,统计检验过程:根据Anderson‑Darling统计量,判断日志集合是否满足正态分布,若不满足,接受步骤1的分组,替换原分组;反之,维持原分组,步骤1的分组舍弃;具体为:给定一条日志数据X和一个分组签名S,LCS(X,S)表示X和S的最长公共子串,则二者的匹配分数match(X,S)计算如下:match(X,S)=|LCS(X,S)|‑(|S|‑|LCS(X,S)|)=2|LCS(X,S)|‑|S|式中,|S|表示签名S中的单词数,|LCS(X,S)|表示最长公共字串的单词数;步骤2‑1、记签名S1和S2中不同单词的集合cus=S1∪S2‑S1∩S2,计算xp=match(Xp,S)/cus,zp=F(xp),这里
是正态分布的累计分布函数;Xp∈D,Xp是D中的一条日志数据,1≤p≤n,n为日志集合D中日志数据的数量;步骤2‑2、根据Anderson‑Darling统计量分别计算![]()
步骤2‑3、比较A2(Z)和
如果
大于A2(Z),则表示不满足正态分布,接受步骤1的分组,替换原分组;反之,则表示满足正态分布,维持原分组,步骤1的分组舍弃;步骤3,迭代过程:选择当前未进行聚类的分组重复步骤1、步骤2,直至所有的分组均满足正态分布,分组不再变化,各个分组的签名即为提取出来的日志事件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610696024.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种输液容器
- 下一篇:利用中药煎药机进行的制药方法