[发明专利]日志聚类方法、装置、设备及存储介质在审
申请号: | 201911423368.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159413A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 黄磊 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/18 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 贾伟;张颖玲 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 方法 装置 设备 存储 介质 | ||
本发明公开了一种日志聚类方法、装置、设备及存储介质。其中,该方法包括:对于目标系统的日志进行特征提取;基于提取的特征确定日志的第一特征向量;基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。本发明实施例可以实现对动态生成的日志进行实时聚类;此外,由于聚类过程中,不用一次性加载所有的日志,且聚类状态采用第二特征向量表征,内存消耗量小,能有效降低对硬件设备的性能要求。
技术领域
本发明涉及日志处理领域,尤其涉及一种日志聚类方法、装置、设备及存储介质。
背景技术
日志作为网络设备、系统及服务程序等运行时生成的事件记录,往往记载着日期、时间、使用者及动作等相关操作的描述。比如,网络安全领域,往往通过对各类日志分析,进行异常发现、安全检测,进而保护网络安全。相关技术中,日志的聚类算法都基于批次日志,即一次性对于一个批次的静态日志进行聚类。然而,现实场景中,日志是源源不断的生成的,导致聚类算法无法满足动态的日志流的聚类需求。此外,基于批次日志的聚类算法要一次性加载该批次的所有日志到内存,内存消耗大,对硬件设备的性能要求高。
发明内容
有鉴于此,本发明实施例提供了一种日志聚类方法、装置、设备及存储介质,旨在满足动态日志流的聚类需求。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种日志聚类方法,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
上述方案中,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
上述方案中,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类,包括:
基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;
确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。
上述方案中,基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度,包括:
针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;
对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。
上述方案中,目标系统的日志为攻击日志,所述确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第一距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911423368.8/2.html,转载请声明来源钻瓜专利网。