[发明专利]基于深度强化学习的多智能体攻防决策方法有效
申请号: | 202211398653.0 | 申请日: | 2022-11-09 |
公开(公告)号: | CN115544898B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 李湛;李熙伦;郑晓龙;于兴虎;高会军 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/048;G06N3/084 |
代理公司: | 哈尔滨市松花江联合专利商标代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 智能 攻防 决策 方法 | ||
基于深度强化学习的多智能体攻防决策方法,涉及人工智能、机器学习领域。本发明解决了多智能体深度确定性策略梯度方法,无法应用于智能体可坠毁的场景下的问题。本发明该攻防决策方法包括如下过程:S1、根据场景构建攻防环境;S2、将N个智能体与攻防环境进行交互,交互过程中每个智能体最大化自身奖励,构建适用于深度神经网络的数据集知识库;所述数据集知识库内所有样本的数据维度相同;S3、从数据集知识库中随机抽取一批样本,利用同批样本同时对每个智能体的深度神经网络进行训练,获得训练后的智能体;S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策。主要用于复杂场景下的多对多智能体的攻防决策。
技术领域
本发明涉及人工智能、机器学习领域。
背景技术
强化学习近来被应用到解决许多挑战性问题上去,比如玩游戏和机器人上。也有很多重要的应用场景牵涉到多个智能体之间的交互,在这种共同的交互演化过程中,会有新的行为出现,问题也会变得更加复杂。传统的强化学习方法不适用于多智能体方法,因此,多智能体深度强化学习应运而生。
对于复杂的多对多攻守博弈场景,在数学上无法求得解析的纳什均衡解,因此需要使用多智能体深度强化学习方法。Ryan Lowe等人在2017年提出了多智能体演员-评论家算法和多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic PolicyGradient,下文简称MADDPG),采用集中式训练的框架,分散式执行的方式,在一些合作、竞争混合的环境下取得了优越的效果。针对随机马尔科夫博弈:在攻防对抗博弈中,我们需要控制攻防双方多个智能体完成各自目标。此过程可描述为随机马尔科夫博弈。N个智能体的随机马尔科夫博弈Γ可表示为其中S为状态空间;Aj为第j个智能体动作空间;第j个智能体的奖励函数为rj:状态转移概率p为S×A1×…×AN→Ω(s),描述状态随时间的随机变化,其中Ω(s)为整个状态空间S上的概率分布集合;折扣因子γ∈[0,1)。每个智能体的目标是最大化自身的总预期回报
但是现有的多智能体深度确定性策略梯度算法(MADDPG)存在的弊端是,无法应用于智能体可坠毁的场景下,也即:无法处理训练过程中智能体数量变化的情况;由于在获取训练样本的过程中,当智能体由于碰撞坠毁导致智能体数量变化时,经验回放池中得到的同一时刻下所有智能体的数据缺失,当从经验回放池中抽取出数据缺失的样本时,使得输入至深度神经网络中数据维度变小,使得现有深度神经网络无法继续进行训练学习、整个训练过程被迫终止。
发明内容
本发明目的是为了解决多智能体深度确定性策略梯度算法(MADDPG),无法应用于智能体可坠毁的场景下的问题,本发明提供了一种基于深度强化学习的多智能体攻防决策方法。
基于深度强化学习的多智能体攻防决策方法,该攻防决策方法基于同一场景下的N个智能体和目标地标实现;智能体为飞行器,且每个智能体内嵌入深度神经网络,N为大于或等于5的整数;该攻防决策方法包括如下过程:
S1、根据场景构建攻防环境;
攻防环境中N个智能体被划分为两组,分别为进攻方和防守方,且进攻方内各智能体独立进攻,防守方所对应的所有智能体协同合作;
S2、将N个智能体与攻防环境进行交互,交互过程中每个智能体最大化自身奖励,构建适用于深度神经网络的数据集知识库;
所述数据集知识库内所有样本的数据维度相同,且每个样本中的数据为由同一采样轮次下的N个智能体的当前状态、动作、奖励和新状态构成;所述智能体的动作包括由水平面内的x轴方向和y轴方向的期望加速度构成的合成期望加速度;
S3、从数据集知识库中随机抽取一批样本,利用同批样本同时对每个智能体的深度神经网络进行训练,获得训练后的智能体;其中,每个样本中的当前状态、奖励和新状态作为深度神经网络的输入,每个样本中的动作作为深度神经网络的输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211398653.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双进程多目标跟踪方法
- 下一篇:一种高压开关水阀