[发明专利]日志聚类方法、装置、设备及存储介质在审
申请号: | 201911423368.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159413A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 黄磊 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/18 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 贾伟;张颖玲 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 方法 装置 设备 存储 介质 | ||
1.一种日志聚类方法,其特征在于,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
2.根据权利要求1所述的方法,其特征在于,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
3.根据权利要求1所述的方法,其特征在于,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类,包括:
基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;
确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。
4.根据权利要求3所述的方法,其特征在于,基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度,包括:
针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;
对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。
5.根据权利要求4所述的方法,其特征在于,目标系统的日志为攻击日志,所述确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第一距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第一距离;
对于攻击类型,基于相应的攻击类型是否相同确定第一距离。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据日志的分类结果,更新所述聚类状态。
7.一种日志聚类方法,其特征在于,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
确定达到设定条件,基于所述预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态;
其中,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述预分类结果中同一类别的各日志的第一特征向量,确定相应类别的第二特征向量。
9.根据权利要求7所述的方法,其特征在于,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911423368.8/1.html,转载请声明来源钻瓜专利网。