[发明专利]基于强化学习和攻防博弈的智能防御决策方法及装置有效
申请号: | 201910292304.2 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110166428B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 胡浩;张玉臣;杨峻楠;谢鹏程;刘玉岭;马博文;冷强;张畅;陈周文;林野 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 攻防 博弈 智能 防御 决策 方法 装置 | ||
1.一种基于强化学习和攻防博弈的智能防御决策方法,其特征在于,包含如下内容:
A)在有限理性约束下构建攻防博弈模型,并生成用于提取博弈模型中网络状态与攻防动作的攻防图,该攻防图设定为以主机为中心,攻防图节点提取网络状态,攻防图边分析攻防动作;
B)基于网络状态与攻防动作对攻防博弈模型进行强化学习,攻防双方对抗中依据系统反馈,使得有限理性下防御者面对不同攻击者时自动做出最优防御策略的选择;
B)中,强化学习中,采用狼爬山策略WoLF-PHC免模型强化学习机制,通过与环境交互获取回报和环境状态转移知识,知识利用收益表示,设定防御者高低策略学习率以适应攻击者策略,通过更新收益进行强化学习,确定防御者最优防御策略;
收益表示为强化学习的策略为:其中,α为收益学习率;γ为折扣因子,Rd(s,d,s')表示防御者在状态s执行防御动作d网络转移到状态s'后的立即回报。
2.根据权利要求1所述的基于强化学习和攻防博弈的智能防御决策方法,其特征在于,A)中,攻防博弈模型用六元组表示,即AD-SGM=(N,S,D,R,Q,π),其中,N表示参与博弈的局中人,S表示随机博弈状态集合,D表示防御者动作集合,R表示防御者立即回报,Q表示防御者状态—动作收益函数,π表示防御者防御策略。
3.根据权利要求1所述的基于强化学习和攻防博弈的智能防御决策方法,其特征在于,攻防图用二元组表示,即G=(S,E),其中,S表示节点安全状态集合,E表示攻击动作或防御动作发生引起节点状态的转移。
4.根据权利要求3所述的基于强化学习和攻防博弈的智能防御决策方法,其特征在于,生成攻击图时,首先对目标网络扫描获取网络安全要素,然后与攻击模板结合进行攻击实例化,与防御模板结合进行防御实例化,最后生成攻防图,其中,攻防博弈模型的状态集合由攻防图节点提取,防御动作集合由攻防图边提取。
5.根据权利要求1所述的基于强化学习和攻防博弈的智能防御决策方法,其特征在于,采用平均策略作为胜利和失败的评判标准,公式表示为:
6.根据权利要求1所述的基于强化学习和攻防博弈的智能防御决策方法,其特征在于,免模型强化学习机制中,引入用于跟踪最近访问的状态-动作轨迹的资格迹,将当前回报分配给最近访问的状态-动作,利用资格迹对收益进行更新。
7.根据权利要求6所述的基于强化学习和攻防博弈的智能防御决策方法,其特征在于,强化学习中,定义每个状态—动作的资格迹为e(s,a),设当前网络状态为s*,资格迹以方式进行更新,将当前回报分配给最近访问的状态-动作,其中γ为折扣因子,λ为轨迹衰减因子。
8.一种基于强化学习和攻防博弈的智能防御决策装置,其特征在于,采用权利要求1~7任一项所述的基于强化学习和攻防博弈的智能防御决策方法进行目标网络防御策略的智能选取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910292304.2/1.html,转载请声明来源钻瓜专利网。