[发明专利]基于Q-learning的网络最优攻击路径预测方法及系统在审
申请号: | 202310132460.9 | 申请日: | 2023-02-17 |
公开(公告)号: | CN116112278A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 李腾;廖艾;王佳欣;于润泽;马卓;卢知雨;何彦武;张俊伟 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L41/147;H04L41/16 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 范巍 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 learning 网络 最优 攻击 路径 预测 方法 系统 | ||
1.一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,包括以下步骤:
步骤1,根据网络中的关键信息以及网络环境中的漏洞,构建网络环境的攻击图;
步骤2,采用优化的CVSS通用漏洞评分系统,确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标,将攻击成功指标与攻击发动指标赋于攻击图上的两类边,将其作为两类边的边权值,得到量化后的攻击图G′;
步骤3,将量化后的攻击图作为环境属性,攻击图上的节点作为状态集合,攻击图上的有向边作为动作集合,构建基于Q-learning的最优攻击路径预测模型;
步骤4,对Q-learning的最优攻击路径预测模型进行迭代训练,根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。
2.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤2中,所述CVSS通用漏洞评分系统的优化方法如下:
增加CVSS通用漏洞评分系统中攻击复杂度属性、权限要求和可用性的权重,剩余属性保持不变。
3.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤2中所述攻击发动指标计算公式为:
Lauk=min(1.08×(P1+P2),10)
其中,P1=8.22×AV×AC×PR×UI,AB表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互;
所述攻击成功指标Suck根据攻击发动指标Lauk与漏洞本身的攻击复杂度AC,确定。
4.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤3中构建基于Q-learning的最优攻击路径预测模型的方法如下:
S3.1、建立N×N的二维数组R,将步骤2得到的量化后的攻击图G′的边权值存在二维数组R中得到矩阵R,在量化后的攻击图G′中,若两节点间相互不连通,将R中对应的值取为-1;
S3.2、取条件节点B1作为初始采样状态S1,BM作为目标状态STerm,量化后的攻击图G′中的其余节点作为中间状态St,G′中的有向边作为动作A,矩阵R作为学习环境,Rt,j表示在状态St下采取动作At到达状态Sj的环境反馈值,构建基于Q-learning的网络最优攻击路径预测模型。
5.根据权利要求4所述的一种基于Q-learning的网络最优攻击路径预测方法,其特征在于,步骤4中所述基于Q-learning的最优攻击路径预测模型的迭代训练方法如下:
S4.1、当前迭代次数为更新周期的整数倍,对行为决策算法π中的贪婪度ε进行更新;
S4.2、在中间状态St下,生成随机动作选取概率,根据行为决策算法π选取一个可执行动作At,执行可执行动作At达到新状态Snew;
S4.3、然后从矩阵R中获取环境反馈值Rt,new,对收益期望Q(St,Ati)进行更新;
S4.4、判断新状态Snew是否到达目标状态STerm;
新状态Snew没有到达目标状态STerm,以新状态Snew作为当前状态,并执行S4.1,直至新状态Snew到达目标状态STerm;
新状态Snew到达目标状态STerm,令z=z+1,并重复S4.1直至到达最大迭代次数,得到训练后的网络最优攻击路径预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310132460.9/1.html,转载请声明来源钻瓜专利网。