[发明专利]一种DNS日志分析方法及装置有效
申请号: | 201510920374.X | 申请日: | 2015-12-11 |
公开(公告)号: | CN105574539B | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 刘千仞;周光涛;孙莉 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 dns 日志 分析 方法 装置 | ||
1.一种域名系统DNS日志分析方法,其特征在于,所述方法包括:
获取DNS日志并对所述DNS日志进行预处理,获得预处理后的日志文本,所述预处理后的日志文本中包含至少一条文本信息,每条文本信息包含该文本信息对应的第一信息;
从所述预处理后的日志文本中提取所述每条文本信息包含的所述第一信息,构建所述第一信息的特征向量矩阵;
根据所述第一信息的特征向量矩阵,确定对所述每条文本信息包含的所述第一信息进行K-means聚类时对应的K值;
根据所述K值对所述每条文本信息包含的所述第一信息进行K-means聚类,获得聚类结果;
其中,所述根据所述第一信息的特征向量矩阵,确定对所述每条文本信息包含的所述第一信息进行K-means聚类时对应的K值,包括:
从所述第一信息的特征向量矩阵A中随机选取一个向量B,将所述向量B添加到空集合C中,获得集合C1和向量矩阵A1,其中,所述集合C1中包含所述向量B,所述向量矩阵A1为所述特征向量矩阵A去除所述向量B之外的向量矩阵;
以m=1,n=1为初始值,循环执行步骤S1-S3,直至向量矩阵A(m+1)为空,其中,m、n均为不小于1的正整数:
S1:从向量矩阵Am中随机选取一个向量Dm,并分别确定所述向量Dm与集合Cn中的每一个向量的相似度;
S2:若所述向量Dm与所述集合Cn中的所有向量的相似度都小于预设阈值,将所述向量Dm添加到集合Cn中,获得集合C(n+1)和向量矩阵A(m+1),其中,所述集合C(n+1)中包含所述向量Dm,所述向量矩阵A(m+1)为所述特征向量矩阵Am去除所述向量Dm之外的向量矩阵,n为不小于1的正整数;
S3:若所述向量Dm与所述集合Cn中的某一向量的相似度不小于所述预设阈值,获得所述向量矩阵A(m+1);
将所述向量矩阵A(m+1)为空时所述集合C(n+1)中向量的个数确定为对所述每条文本信息包含的所述第一信息进行K-means聚类时对应的K值。
2.根据权利要求1所述的方法,其特征在于,所述从向量矩阵Am中随机选取一个向量Dm,并分别确定所述向量Dm与集合Cn中的每一个向量的相似度,包括:
从向量矩阵Am中随机选取一个向量Dm,并根据第一预设公式分别确定所述向量Dm与集合Cn中的每一个向量的相似度,其中,所述第一预设公式包括:
sim(X,Y)表示X与Y的相似度,X表示向量Dm,Y表示集合Cn中的一个向量,||*||表示*的模值。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述根据所述K值对所述每条文本信息包含的所述第一信息进行K-means聚类,获得聚类结果,包括:
从所述第一信息的特征向量矩阵A中选取K个向量作为初始的中心点:
分别计算所述特征向量矩阵A中的每个向量到所述K个向量中每个向量的距离;
根据距离最小的原则将所述向量矩阵A中的所有向量进行划分,获得K个类别。
4.根据权利要求3所述的方法,其特征在于,所述分别计算所述特征向量矩阵A中的每个向量到所述K个向量中每个向量的距离,包括:
根据第二预设公式分别计算所述特征向量矩阵A中的每个向量到所述K个向量的距离,其中,所述第二预设公式包括:
dist(X,Y)表示X与Y的距离,X表示向量矩阵A中某一个向量,Y表示K个向量中的某一个向量,表示i从1取值到N后求和,xi表示X向量中的第i个元素值,yi表示Y向量中的第i个元素值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510920374.X/1.html,转载请声明来源钻瓜专利网。