[发明专利]一种基于词嵌入的多阶段网络攻击检测方法有效
申请号: | 202010660792.0 | 申请日: | 2020-07-10 |
公开(公告)号: | CN112019497B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 周鹏;周公延 | 申请(专利权)人: | 上海大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62;G06N3/08;G06N20/20 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入 阶段 网络 攻击 检测 方法 | ||
本发明提供了一种基于词嵌入的多阶段网络攻击检测方法,本方法包括如下步骤:1)对已经发生攻击后的网络流量特征所构成的数据集进行特征选择;2)使用词嵌入方法向量化网络流量数据;3)分别构建当前向量和历史向量,使用负采样方法构建训练样本;4)建立基于词嵌入的多阶段攻击检测模型,计算关联向量,使用有监督学习分类算法计算关联概率,判断当前数据属于多阶段攻击的可能性。该方法的优点是,入侵检测系统可从数据包层面自动关联攻击阶段,不需要定义关联规则,同时避免了从警报层面进行多阶段攻击检测时部分攻击阶段没有产生警报的问题。
技术领域
本发明涉及一种基于词嵌入的多阶段攻网络击检测方法,适用于工业互联网边界防护场景下攻击者有目的性的进行多阶段网络攻击的入侵检测。
背景技术
工业互联网边界防护一般包括识别、防护、检测、响应、恢复五个方面。入侵检测技术是工业互联网边界防护中的重要一环,通过对工业互联网进行持续性网络流的监视和检测,分析攻击发生后的网络流量特征来定位攻击,以识别安全事件的发生,为安全响应和安全恢复机制提供信息。
由于工业互联网边界防护技术的不断发展,攻击者逐渐难以通过利用孤立的漏洞和安全缺陷(如SQL注入攻击、拒绝服务攻击等)对网络进行渗透。因此,攻击者为了成功入侵,往往需要将网络侦测、漏洞发现和缺陷利用等一系列攻击手段进行组合并逐渐渗透,从而使一次入侵过程由多个阶段组成,形成多阶段攻击,更有甚者,为了达到隐蔽攻击的目的,攻击者往往将其中一些攻击阶段伪装成正常的网络行为,但这些伪装的攻击阶段与其他行为关联起来却能达到隐蔽攻击的目的。
传统的基于机器学习的入侵检测技术,一般通过对网络流量分析建模,或基于已有攻击的网络特征进行识别,或通过网络包的异常进行检测,基本都忽略了网络数据的序列相关特性,无法检测多阶段攻击。因此,对多阶段攻击的检测面临新的挑战。另一方面,现有的多阶段攻击检测方法主要分为基于规则的和基于统计学习算法的,其中,基于规则的方法需要手动编写规则,一般用来从攻击后数据中提取多阶段攻击,进行关联分析。基于统计学习算法的方法以隐马尔可夫模型为主,通过统计分析学习大量攻击样本得到模型参数,但是隐马尔可夫模型使用了独立性假设,即当前状态仅与前一状态有关,无法学习到更深层次的多阶段攻击特性。
发明内容
本发明的目的在于,从多阶段攻击中不同攻击阶段会导致相应的网络包具有潜在相关性的角度出发,提出一种基于词嵌入方法的多阶段网络攻击检测方法,入侵检测系统可从数据包层面自动关联攻击阶段,不需要定义关联规则,同时避免了从警报层面进行多阶段攻击检测时部分攻击阶段没有产生警报的问题。与现有方法不同,本发明针对网络流量数据的序列特性和攻击者有计划的多阶段攻击行为,开发一种基于词嵌入的多阶段网络攻击检测方法。
为了实现上述发明目的,本发明通过以下技术方案来实现:
一种基于词嵌入的多阶段攻网络击检测方法,包括如下步骤:
1)对已经发生攻击后的网络流量特征所构成的数据集进行特征选择;
2)使用词嵌入方法向量化网络流量数据;
3)分别构建当前向量和历史向量,使用负采样方法构建训练样本;
4)建立基于词嵌入的多阶段攻击检测模型,计算关联向量,使用有监督学习分类算法计算关联概率,判断当前数据属于多阶段攻击的可能性。
所述步骤1)中的特征选取包括下列步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010660792.0/2.html,转载请声明来源钻瓜专利网。