[发明专利]基于Q-learning的网络最优攻击路径预测方法及系统在审

申请号：	202310132460.9	申请日：	2023-02-17
公开（公告）号：	CN116112278A	公开（公告）日：	2023-05-12
发明（设计）人：	李腾;廖艾;王佳欣;于润泽;马卓;卢知雨;何彦武;张俊伟	申请（专利权）人：	西安电子科技大学
主分类号：	H04L9/40	分类号：	H04L9/40;H04L41/147;H04L41/16
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	范巍
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 learning 网络最优攻击路径预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，包括以下步骤：

步骤1，根据网络中的关键信息以及网络环境中的漏洞，构建网络环境的攻击图；

步骤2，采用优化的CVSS通用漏洞评分系统，确定攻击图中每一个漏洞节点的攻击发动指标和攻击成功指标，将攻击成功指标与攻击发动指标赋于攻击图上的两类边，将其作为两类边的边权值，得到量化后的攻击图G′；

步骤3，将量化后的攻击图作为环境属性，攻击图上的节点作为状态集合，攻击图上的有向边作为动作集合，构建基于Q-learning的最优攻击路径预测模型；

步骤4，对Q-learning的最优攻击路径预测模型进行迭代训练，根据训练后的最优攻击路径预测模型进行网络最优攻击路径的预测。

2.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤2中，所述CVSS通用漏洞评分系统的优化方法如下：

增加CVSS通用漏洞评分系统中攻击复杂度属性、权限要求和可用性的权重，剩余属性保持不变。

3.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤2中所述攻击发动指标计算公式为:

Lau_k＝min(1.08×(P1+P2),10)

其中，P1＝8.22×AV×AC×PR×UI，AB表示漏洞的攻击向量、AC表示漏洞的攻击复杂度、PR表示漏洞的权限要求、UI表示漏洞的用户交互；

所述攻击成功指标Suc_k根据攻击发动指标Lau_k与漏洞本身的攻击复杂度AC，确定。

4.根据权利要求1所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤3中构建基于Q-learning的最优攻击路径预测模型的方法如下：

S3.1、建立N×N的二维数组R，将步骤2得到的量化后的攻击图G′的边权值存在二维数组R中得到矩阵R，在量化后的攻击图G′中，若两节点间相互不连通，将R中对应的值取为-1；

S3.2、取条件节点B₁作为初始采样状态S₁，B_M作为目标状态S_Term，量化后的攻击图G′中的其余节点作为中间状态S_t，G′中的有向边作为动作A，矩阵R作为学习环境，R_t，j表示在状态S_t下采取动作A_t到达状态S_j的环境反馈值，构建基于Q-learning的网络最优攻击路径预测模型。

5.根据权利要求4所述的一种基于Q-learning的网络最优攻击路径预测方法，其特征在于，步骤4中所述基于Q-learning的最优攻击路径预测模型的迭代训练方法如下：

S4.1、当前迭代次数为更新周期的整数倍，对行为决策算法π中的贪婪度ε进行更新；

S4.2、在中间状态S_t下，生成随机动作选取概率，根据行为决策算法π选取一个可执行动作A_t，执行可执行动作A_t达到新状态S_new；

S4.3、然后从矩阵R中获取环境反馈值R_t，new，对收益期望Q(S_t，A_ti)进行更新；

S4.4、判断新状态S_new是否到达目标状态S_Term；

新状态S_new没有到达目标状态S_Term，以新状态S_new作为当前状态，并执行S4.1，直至新状态S_new到达目标状态S_Term；

新状态S_new到达目标状态S_Term，令z＝z+1，并重复S4.1直至到达最大迭代次数，得到训练后的网络最优攻击路径预测模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310132460.9/1.html，转载请声明来源钻瓜专利网。