[发明专利]一种面向仿真的Q学习攻击目标分配方法有效

专利信息
申请号: 201610427869.3 申请日: 2016-06-16
公开(公告)号: CN105844068B 公开(公告)日: 2018-11-13
发明(设计)人: 罗鹏程;谢俊洁;金光;李进 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F17/50 分类号: G06F17/50
代理公司: 北京中济纬天专利代理有限公司 11429 代理人: 陈立新
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向仿真的Q学习攻击目标分配方法,包括以下步骤:(1)确定初始状态,获取红蓝双方空战态势信息,双方空战态势信息包括双方编队内飞机数量与编队飞机相关参数,为红方目标分配和空战模型计算提供输入;(2)确定红方编队所能执行的动作集,并严格规定完备的“状态‑动作”对;确定合适的概率ε值并采用ε‑贪婪策略进行红方动作选择;(3)规定Q学习算法回报函数、终止状态和收敛条件,应用Q学习算法为红进行攻击目标分配迭代直至满足收敛条件。本发明摆脱了对先验知识的依赖;对ε‑贪婪策略的引入,避免了陷入局部最优陷阱;通过对参数ε的设置,可以在算法效率与局部最优问题上寻求平衡。
搜索关键词: 一种 面向 仿真 学习 攻击 目标 分配 方法
【主权项】:
1.一种面向仿真的Q学习攻击目标分配方法,其特征在于,包括以下步骤:(1)确定初始状态,其中红方有s11架预警机;s12架巡逻飞机;蓝方有s21架干扰机;s22架突击飞机;红方预警机具有学习能力且不直接参与作战且假定不会被击落;获取红蓝双方空战态势信息,双方空战态势信息包括双方编队内飞机数量与编队飞机相关参数,为红方目标分配和空战模型计算提供输入;其中编队飞机相关参数包括双方飞机数量、指挥因子、战机易损性、多目标攻击能力、架次比、允许交战比、作战飞机的雷达反射截面积、作战飞机雷达抗干扰系数、机载雷达最大发现距离、机载空空弹最大有效射程、最大发现距离上对目标的发现概率、预警机有效发现目标概率、导弹数量和导弹评分;(2)确定红方编队所能执行的动作集,并严格规定完备的“状态‑动作”对,其形式如表2所示;确定合适的概率ε值并采用ε‑贪婪策略进行红方动作选择;表2 “状态‑动作”对表示形式选取ε=0.1,即红方进行动作选择时,以0.9概率选取当前Q函数达到最大值的动作;同时以0.1的概率尝试其他不同的动作;(3)规定Q学习算法回报函数、终止状态和收敛条件,应用Q学习算法为红方进行攻击目标分配迭代直至满足收敛条件;红方回报函数定义如下:采用空战模型计算空战结果后,当判定蓝方突击飞机或干扰飞机有一架被击落,则红方获得一个+1的奖励;当判定红方巡逻飞机有一架被击落,则红方获得一个‑1的回报;在红方选择自卫规避即放弃制空权时,给予红方惩罚‑10;红方“状态‑动作”对的奖励折扣值更新方程如下:rt+1即为红方执行动作的立即回报;代表在状态st+1下红方所有动作最大回报;γ∈[0,1]为折扣因子;a为红方所有可行动作集;Q(st,at)表示红方在状态st下采用动作at所获得的奖励折扣和;α为学习步长;定义终止状态为参战双方飞机中一方数量为0,每一次从任意初始状态出发达到终止状态的过程称为一幕;每次达到终止状态,判断红方“状态‑动作”对的奖励折扣值矩阵是否收敛;若没有收敛,滚回至初始状态重新迭代,直至红方“状态‑动作”对的奖励折扣值矩阵收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610427869.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top