[发明专利]一种面向仿真的Q学习攻击目标分配方法有效
申请号: | 201610427869.3 | 申请日: | 2016-06-16 |
公开(公告)号: | CN105844068B | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 罗鹏程;谢俊洁;金光;李进 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 陈立新 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向仿真的Q学习攻击目标分配方法,包括以下步骤:(1)确定初始状态,获取红蓝双方空战态势信息,双方空战态势信息包括双方编队内飞机数量与编队飞机相关参数,为红方目标分配和空战模型计算提供输入;(2)确定红方编队所能执行的动作集,并严格规定完备的“状态‑动作”对;确定合适的概率ε值并采用ε‑贪婪策略进行红方动作选择;(3)规定Q学习算法回报函数、终止状态和收敛条件,应用Q学习算法为红进行攻击目标分配迭代直至满足收敛条件。本发明摆脱了对先验知识的依赖;对ε‑贪婪策略的引入,避免了陷入局部最优陷阱;通过对参数ε的设置,可以在算法效率与局部最优问题上寻求平衡。 | ||
搜索关键词: | 一种 面向 仿真 学习 攻击 目标 分配 方法 | ||
【主权项】:
1.一种面向仿真的Q学习攻击目标分配方法,其特征在于,包括以下步骤:(1)确定初始状态,其中红方有s11架预警机;s12架巡逻飞机;蓝方有s21架干扰机;s22架突击飞机;红方预警机具有学习能力且不直接参与作战且假定不会被击落;获取红蓝双方空战态势信息,双方空战态势信息包括双方编队内飞机数量与编队飞机相关参数,为红方目标分配和空战模型计算提供输入;其中编队飞机相关参数包括双方飞机数量、指挥因子、战机易损性、多目标攻击能力、架次比、允许交战比、作战飞机的雷达反射截面积、作战飞机雷达抗干扰系数、机载雷达最大发现距离、机载空空弹最大有效射程、最大发现距离上对目标的发现概率、预警机有效发现目标概率、导弹数量和导弹评分;(2)确定红方编队所能执行的动作集,并严格规定完备的“状态‑动作”对,其形式如表2所示;确定合适的概率ε值并采用ε‑贪婪策略进行红方动作选择;表2 “状态‑动作”对表示形式选取ε=0.1,即红方进行动作选择时,以0.9概率选取当前Q函数达到最大值的动作;同时以0.1的概率尝试其他不同的动作;(3)规定Q学习算法回报函数、终止状态和收敛条件,应用Q学习算法为红方进行攻击目标分配迭代直至满足收敛条件;红方回报函数定义如下:采用空战模型计算空战结果后,当判定蓝方突击飞机或干扰飞机有一架被击落,则红方获得一个+1的奖励;当判定红方巡逻飞机有一架被击落,则红方获得一个‑1的回报;在红方选择自卫规避即放弃制空权时,给予红方惩罚‑10;红方“状态‑动作”对的奖励折扣值更新方程如下:rt+1即为红方执行动作的立即回报;代表在状态st+1下红方所有动作最大回报;γ∈[0,1]为折扣因子;a为红方所有可行动作集;Q(st,at)表示红方在状态st下采用动作at所获得的奖励折扣和;α为学习步长;定义终止状态为参战双方飞机中一方数量为0,每一次从任意初始状态出发达到终止状态的过程称为一幕;每次达到终止状态,判断红方“状态‑动作”对的奖励折扣值矩阵是否收敛;若没有收敛,滚回至初始状态重新迭代,直至红方“状态‑动作”对的奖励折扣值矩阵收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610427869.3/,转载请声明来源钻瓜专利网。
- 上一篇:低脉动齿轮泵的主动设计方法
- 下一篇:一种新型弹簧床垫