[发明专利]基于强化学习和攻防博弈的智能防御决策方法及装置有效
申请号: | 201910292304.2 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110166428B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 胡浩;张玉臣;杨峻楠;谢鹏程;刘玉岭;马博文;冷强;张畅;陈周文;林野 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 攻防 博弈 智能 防御 决策 方法 装置 | ||
本发明属于网络安全技术领域,特别涉及一种基于强化学习和攻防博弈的智能防御决策方法及装置,该方法包含:在有限理性约束下构建攻防博弈模型,并生成用于提取博弈模型中网络状态与攻防动作的攻防图,该攻防图设定为以主机为中心,攻防图节点提取网络状态,攻防图边分析攻防动作;防御者在网络状态转移概率未知时,通过在线学习得到防御收益使得防御者面对不同攻击者时自动做出最优防御策略的选择。本发明有效压缩博弈状态空间,降低了存储和运行开销;防御者在与攻击者对抗中依据环境反馈进行强化学习,在面对不同攻击时能自适应做出最优选择;提升防御者学习速度,提高了防御收益,减少对历史数据依赖,有效提升防御者决策时的实时性和智能性。
技术领域
本发明属于网络安全技术领域,特别涉及一种基于强化学习和攻防博弈的智能防御决策方法及装置。
背景技术
近年来,信息安全事件日趋频繁,给网络安全带来了巨大的损失,据统计,阿里云在2017年仅每天就要遭受16亿次左右的攻击,对于不同攻击者,可能每个攻防场景只会出现一次,但对于以阿里云为代表的防御者来说,其每天都要面对大量相同的攻防场景。考虑到网络设备硬件资源有限,如何综合考虑防御成本和收益,以防御收益最大化为目标,使防御者在风险与投入之间达成一种均衡,如何使防御者在大量相同的攻防场景中对收益进行在线学习和更新,安全管理员面临适度安全条件下“最优策略难以选取”的困境。博弈论与网络攻防所具有的目标对立性、关系非合作性和策略依存性高度契合。目前基于博弈论的防御决策方法可以分为基于完全理性假设和有限理性假设两类:一是基于攻防参与者完全理性的防御决策方法。完全理性假设的前提是每个参与者既能理智选择最优策略使自己利益最大化,同时能预测其他参与者的策略选择。应用到无线传感器安全领域,通过建立攻击者与传感器信任节点间的非合作博弈模型,依据纳什均衡给出最优攻击策略,可以对蠕虫病毒攻击和防御策略的效能进行分析。通过建立入侵检测系统和无线传感器节点间的重复博弈模型,可以分析节点包的转发策略。二是基于攻防参与者有限理性的防御决策方法。有限理性意味着攻防双方不会在一开始就找到最优策略,会在攻防博弈中学习攻防博弈,合适的学习机制是在博弈中取胜的关键。该类方法主要围绕演化博弈展开,演化博弈以群体为研究对象,采用生物进化机制,通过模仿其它成员的优势策略来完成学习。演化博弈中参与人之间信息交换过多且主要是对攻防群体策略的调整过程、趋势和稳定性进行研究,不利于指导个体成员的实时策略选择。如何采取更好的学习机制模拟攻防过程,提高防御决策的准确性和时效性成为亟待解决的技术问题。
发明内容
为此,本发明提供一种基于强化学习和攻防博弈的智能防御决策方法及装置,适用于现实攻防网络环境,实现在线学习能力的智能化防御决策,具有较强的实用性和可操作性。
按照本发明所提供的设计方案,一种基于强化学习和攻防博弈的智能防御决策方法,包含如下内容:
A)在有限理性约束下构建攻防博弈模型,并生成用于提取博弈模型中网络状态与攻防动作的攻防图,该攻防图设定为以主机为中心,攻防图节点提取网络状态,攻防图边分析攻防动作;
B)基于网络状态与攻防动作,依托攻防博弈模型,对攻防博弈过程进行强化学习,攻防双方对抗中依据系统反馈,使得有限理性下防御者面对不同攻击者时自动做出最优防御策略的选择。
上述的,A)中,攻防博弈模型用六元组表示,即AD-SGM=(N,S,D,R,Q,π),其中,N表示参与博弈的局中人,S表示随机博弈状态集合,D表示防御者动作集合,R表示防御者立即回报,Q表示防御者状态—动作收益函数,π表示防御者防御策略。
上述的,攻防图用二元组表示,即G=(S,E),其中,S表示节点安全状态集合,E表示攻击动作或防御动作发生引起节点状态的转移。
优选的,生成攻击图时,首先对目标网络扫描获取网络安全要素,然后与攻击模板结合进行攻击实例化,与防御模板结合进行防御实例化,最后生成攻防图,其中,攻防博弈模型的状态集合由攻防图节点提取,防御动作集合由攻防图边提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910292304.2/2.html,转载请声明来源钻瓜专利网。