[发明专利]攻击溯源方法及相关数据处理、关联展示方法及装置在审
申请号: | 202210425983.8 | 申请日: | 2022-04-21 |
公开(公告)号: | CN115412274A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 蒋昊瑾 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F40/194;G06F40/284;G06K9/62 |
代理公司: | 北京思格颂知识产权代理有限公司 11635 | 代理人: | 潘珺 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 攻击 溯源 方法 相关 数据处理 关联 展示 装置 | ||
本发明公开了一种攻击溯源方法及相关数据处理、关联展示方法及装置。所述攻击溯源数据的处理方法包括:将同一时间段内产生的至少两份不同类别的攻击溯源数据,分别转换成至少两份对应的文本;将至少两份对应的文本进行比较,确定至少两份对应的文本之间的相似度;根据所述相似度,确定所述至少两份不同类别的攻击溯源数据之间是否匹配。本发明较现有技术采用正则表达式匹配的方式,简化了匹配的过程,可实现海量数据的自动化关联,提高了攻击溯源数据的匹配效率,为更快地进行攻击溯源提供了支撑。
技术领域
本发明涉及网络安全技术领域,特别涉及一种攻击溯源方法及相关数据处理、关联展示方法及装置。
背景技术
攻击溯源是网络安全事件中事后响应的重要方法之一,即通过对攻击溯源相关的数据例如用户受威胁资产与告警日志、网络流量日志、进程日志、恶意文件日志、威胁情报等进行关联分析,形成攻击溯源图谱来还原攻击者的攻击路径和攻击手法,从而为用户进行漏洞修复、真实性核实、根因分析、影响评估等提供高可解释性依据。如何将海量告警与每个类型的安全日志在长时间跨度下进行快速、准确的关联挖掘是网络攻击溯源的重要挑战。
在攻击溯源图谱的构建中,可以多种日志和/或情报信息间进行关联挖掘,比如将网络流量日志与进程日志进行关联挖掘,是实现主机内事实数据与网络层数据溯源能力的关键。目前一般的网络攻击溯源做法是基于安全规则来实现的,即将相同时间窗口内的进程日志和网络流量两份日志,直接利用正则表达式的方式来明文匹配进程日志数据中的cmd_line字段或uri字段和流量日志中的post_data字段。这种方法中匹配规则需要安全工程师预先一一定义,无法自动化地进行匹配,规则会越写越多,大数据量的情况下,规则匹配很费力;同时复杂的正则表达式计算在海量数据情形下非常耗时;只能针对特有日志的特有字段进行匹配,无法扩展到其他场景;规则过滤会存在很多关联性不强的边,导致匹配结果不太准确。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种攻击溯源数据处理方法、攻击溯源方法和攻击信息关联展示方法及装置。
第一方面,本发明实施例提供一种攻击溯源数据的处理方法,包括:
将同一时间段内产生的至少两份不同类别的攻击溯源数据,分别转换成至少两份对应的文本;
将所述至少两份对应的文本进行比较,确定所述至少两份对应的文本之间的相似度;
根据所述相似度,确定所述至少两份不同类别的攻击溯源数据之间是否匹配。
在一个实施例中,将同一时间段内产生的至少两份不同类别的攻击溯源数据,分别转换成至少两份对应的文本之前,还包括:
根据预设时间窗的长度,从所述至少两份不同类别的攻击溯源数据中选取位于同一时间窗内的攻击溯源数据。
在一个实施例中,将至少两份对应的文本进行比较,确定至少两份对应的文本之间的相似度,包括:
将所述至少两份对应的文本按照预设的停词规则进行分词,分别生成包含多个词语的词向量;
计算词向量之间的相似度,将所述词向量之间的相似度作为所述至少两份文本之间的相似度。
在一个实施例中,计算词向量之间的相似度,具体包括:
对词向量分别进行压缩,得到压缩后的词向量;
计算压缩后的词向量之间的杰卡德相似度。
在一个实施例中,对词向量进行压缩,包括:使用预设的N-Gram的切分方式,对词向量中的词语进行重新切分,得到压缩后的词向量。
在一个实施例中,计算词向量之间的相似度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210425983.8/2.html,转载请声明来源钻瓜专利网。