[发明专利]基于非完全信息的入侵检测系统最优稳态策略求解方法有效

申请号：	202011387702.1	申请日：	2020-12-02
公开（公告）号：	CN112487431B	公开（公告）日：	2022-07-15
发明（设计）人：	冯宇;寿宇航;石月楼	申请（专利权）人：	浙江工业大学
主分类号：	G06F21/56	分类号：	G06F21/56;G06F21/57;G06F17/18;G06F17/15
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于完全信息入侵检测系统最优稳态策略求解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法，其特征在于，所述方法包括以下步骤：

1)攻击者针对网络系统状态信息的缺失，建立基于信念的连续零和随机博弈模型，给出攻击者的最优稳态策略；

2)入侵检测系统作为信息优势方，建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略；

3)使用一种基于深度强化学习的算法，求解出攻击者和入侵检测系统的最优稳态策略；

所述步骤1)中，建立基于信念的连续零和随机博弈模型，攻击者的纯动作集合为α_a＝i代表攻击者使用中相应的某一攻击类型i，其相应给定的攻击代价为c_a(i)＞0，入侵检测系统的有限检测库集合为其中，每个库l_i会以概率检测到攻击类型α_a，加载一个库l_i也有其相应给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型，定义F_i，i∈{1,2,...,2^N}表示入侵检测系统对于库的不同配置；入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置，因此执行纯动作α_d的代价为若入侵检测系统执行纯动作α_d，则识别到攻击类型α_a的概率为定义集合表示网络系统3种状态的集合，其中S₁，S₂，S₃分别代表网络系统的健康，受损，故障3种状态，在状态S_k下，若攻击类型α_a未被入侵检测系统检测到，则会对网络系统造成的损害表示为D(S_k,α_a)，定义在状态S_k下，入侵检测系统选择纯动作α_d，攻击者选择攻击类型α_a，攻击者的收益，也即入侵检测系统的损失为

网络系统的不同状态之间会以设定的概率进行相互转移，定义网络系统的状态转移矩阵为

其中，表示在纯动作{α_d,α_a}下，网络系统从状态S_i转移到状态S_j的转移概率；

给出攻击者的最优稳态策略，基于信念的连续零和随机博弈模型使用五元组描述，模型设定如下：

1.1)是博弈的参与者集合，代表加权入侵检测系统，a代表攻击者；

1.2)是对联合概率分布的集合，Δ表示对于一个集合的概率测度空间，×表示笛卡尔积，表示加权入侵检测系统的纯动作集合，分别表示加权入侵检测系统和攻击者的概率动作集合，是联合概率动作，为加权入侵检测系统的概率动作，为攻击者的概率动作；

1.3)是信念状态集合，是对于集合的联合概率分布，t时刻攻击者的信念为B_t，通过式(3)更新出在t+1时刻的信念B_t+1，分别表示在t时刻，攻击者观测到的纯动作；

其中由式(2)得到；

1.4)T是信念状态的转移概率：

T(b′|b,a)表示当前时刻，信念状态为b∈B，攻守双方的联合概率动作为a∈A的条件下，下一时刻转移到信念状态b′∈B的概率，表示加权入侵检测系统执行纯动作的概率，a_a(α_a)攻击者执行纯动作α_a的概率；

1.5)是一步回报集合，其中，r_i(B_t＝b,A_t＝a)是参与者i在t时刻状态B_t＝b下采取联合概率动作A_t＝a的一步回报，给出攻击者和加权入侵检测系统的一步回报分别为

其中，b(j)表示系统状态j的概率；

1.6)定义加权入侵检测系统和攻击者的目标函数：

其中，b₀为初始信念，0＜ρ＜1是折扣因子，π(b)是根据当前信念状态b，加权入侵检测系统和攻击者的稳态策略，每个参与者的目标都是最大化自己的目标函数，最优稳态策略求解问题也就是找到稳态鞍点均衡，即最优稳态策略满足式(8)，即为攻击者的最优稳态策略；

其中，J＝J_a＝-J_d；

1.7)给出攻击者的最优状态值函数为

给出攻击者的最优状态-动作值函数为

其中，表示对所有和α_a组合的累加，转移概率表示当前时刻信念状态为b，联合概率动作为a，加权入侵检测系统和攻击者的纯动作分别为α_a的条件下，下一时刻信念状态转移到b′的概率；

所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程，给出入侵检测系统的最优稳态策略，该决策过程用一个四元组描述，包括以下步骤：

2.1)是联合概率动作集合，表示入侵检测系统的概率动作集合；

2.2)是混合状态集合；

2.3)是混合状态的转移概率：

表示在当前时刻，混合状态为u，u＝{s,b}∈U，b∈B，攻守双方的联合概率动作为的条件下，下一时刻转移到混合状态u′的概率，u′＝{s′,b′}∈U，b′∈B，是定义在公式(2)状态转移矩阵中(s,s′)对应的元素，a_d(α_d)表示入侵检测系统执行纯动作α_d的概率；

2.4)入侵检测系统的一步回报为：

2.5)定义入侵检测系统的目标函数：

其中，u₀为初始混合状态，0＜ρ＜1是折扣因子，ζ_d(u)是根据当前混合状态u,入侵检测系统的稳态策略，入侵检测系统的目标是最大化自己的目标函数，入侵检测系统的最优稳态策略由公式(13)得到，记为

2.6)给出入侵检测系统的最优状态值函数为

给出入侵检测系统的最优状态-动作值函数为

其中α＝{α_d,α_a}，表示对所有α_d和α_a组合的累加，为根据式(8)得到的策略做出的最优概率动作，转移概率表示当前时刻信念状态为b，联合概率动作为入侵检测系统和攻击者的纯动作分别为α_d，α_a的条件下，下一时刻信念状态转移到b′的概率；

所述步骤3)中，使用一种基于深度强化学习的算法，找到攻击者和入侵检测系统的最优稳态策略，包括以下步骤：

3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数，就可以得到双方在不同状态下的最优稳态策略，考虑到信念状态的连续性，使用如下深度Q学习算法来求解最优状态-动作值函数，过程为：

3.1.1.初始化容量分别为C_a，C_d的记忆库M_a，M_d；

3.1.2.分别随机初始化Q网络和Q_d(b,α；σ_d)的权重σ_a，σ_d；

3.1.3.分别初始化目标网络的权重，

3.1.4.设置初始状态为b₁∈B，u₁＝{s₁,b₁}；

3.1.5.对于t＝1,2,...执行以下循环：

3.1.6.对于t时刻的信念状态b_t，找到当前时刻攻击者和加权入侵检测系统的策略；

3.1.7.对于t时刻的混合状态u_t和攻击者的策略，找到当前时刻入侵检测系统的策略；

3.1.8.根据ε-greedy政策选择纯动作

3.1.9.观测到系统状态s_t+1，计算t时刻的记为

3.1.10.根据公式(3)算出t+1时刻的信念状态b_t+1，设置混合状态u_t+1＝{s_t+1,b_t+1}；

3.1.11.把当前的经历分别存储在记忆库M_a，M_d中；

3.1.12.随机分别从记忆库M_a，M_d抽取若干条记忆

3.1.13.令

3.1.14.对于[z_d,l-Q_d(u_l,α_l；σ_d)]²执行梯度下降法训练Q网络的权重σ_a，σ_d；

3.1.15.每过D步以后，把Q网络的权重赋给目标网络

3.1.16.循环结束；

所述3.1.8中，分别为攻击者在t时刻观测到的纯动作，α_d,t为入侵检测系统在t时刻实际执行的纯动作；3.1.12到3.1.14中，下标j，l表示随机抽取到的某一时刻j，l；3.1.13中，表示j+1时刻所有纯动作和α′_a组合的累加，表示l+1时刻所有纯动作α′_d和α′_a组合的累加；3.1.14中，权重σ_a，σ_d的更新公式为：

其中0＜γ≤1是步长因子，下标k表示抽取的若干记忆执行梯度下降法时的迭代次数，和分别表示Q_d(u,α；σ_d,k)的梯度；

3.2)当训练好神经网络后，使用Q网络和Q_d(b,α；σ_d)分别估计出最优状态-动作值函数针对不同的信念状态b，使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题的公式(13)得到最优稳态策略

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011387702.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于非完全信息的入侵检测系统最优稳态策略求解方法有效

专利文献下载