[发明专利]基于非完全信息的入侵检测系统最优稳态策略求解方法有效
申请号: | 202011387702.1 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112487431B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 冯宇;寿宇航;石月楼 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F21/57;G06F17/18;G06F17/15 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 完全 信息 入侵 检测 系统 最优 稳态 策略 求解 方法 | ||
1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述方法包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略;
所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为其中,每个库li会以概率检测到攻击类型αa,加载一个库li也有其相应给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,...,2N}表示入侵检测系统对于库的不同配置;入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态,在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Sk,αa),定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为
网络系统的不同状态之间会以设定的概率进行相互转移,定义网络系统的状态转移矩阵为
其中,表示在纯动作{αd,αa}下,网络系统从状态Si转移到状态Sj的转移概率;
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组描述,模型设定如下:
1.1)是博弈的参与者集合,代表加权入侵检测系统,a代表攻击者;
1.2)是对联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积,表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合,是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;
1.3)是信念状态集合,是对于集合的联合概率分布,t时刻攻击者的信念为Bt,通过式(3)更新出在t+1时刻的信念Bt+1,分别表示在t时刻,攻击者观测到的纯动作;
其中由式(2)得到;
1.4)T是信念状态的转移概率:
T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;
1.5)是一步回报集合,其中,ri(Bt=b,At=a)是参与者i在t时刻状态Bt=b下采取联合概率动作At=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为
其中,b(j)表示系统状态j的概率;
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;
其中,J=Ja=-Jd;
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
其中,表示对所有和αa组合的累加,转移概率表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为αa的条件下,下一时刻信念状态转移到b′的概率;
所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程用一个四元组描述,包括以下步骤:
2.1)是联合概率动作集合,表示入侵检测系统的概率动作集合;
2.2)是混合状态集合;
2.3)是混合状态的转移概率:
表示在当前时刻,混合状态为u,u={s,b}∈U,b∈B,攻守双方的联合概率动作为的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U,b′∈B,是定义在公式(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由公式(13)得到,记为
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率;
所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为Ca,Cd的记忆库Ma,Md;
3.1.2.分别随机初始化Q网络和Qd(b,α;σd)的权重σa,σd;
3.1.3.分别初始化目标网络的权重,
3.1.4.设置初始状态为b1∈B,u1={s1,b1};
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
3.1.9.观测到系统状态st+1,计算t时刻的记为
3.1.10.根据公式(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};
3.1.11.把当前的经历分别存储在记忆库Ma,Md中;
3.1.12.随机分别从记忆库Ma,Md抽取若干条记忆
3.1.13.令
3.1.14.对于[zd,l-Qd(ul,αl;σd)]2执行梯度下降法训练Q网络的权重σa,σd;
3.1.15.每过D步以后,把Q网络的权重赋给目标网络
3.1.16.循环结束;
所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j+1时刻所有纯动作和α′a组合的累加,表示l+1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:
其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,和分别表示Qd(u,α;σd,k)的梯度;
3.2)当训练好神经网络后,使用Q网络和Qd(b,α;σd)分别估计出最优状态-动作值函数针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题的公式(13)得到最优稳态策略
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011387702.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型点阀装置点烫压送结构
- 下一篇:医疗SPD供应链管理系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置