[发明专利]一种面向仿真的Q学习攻击目标分配方法有效

申请号：	201610427869.3	申请日：	2016-06-16
公开（公告）号：	CN105844068B	公开（公告）日：	2018-11-13
发明（设计）人：	罗鹏程;谢俊洁;金光;李进	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F17/50	分类号：	G06F17/50
代理公司：	北京中济纬天专利代理有限公司 11429	代理人：	陈立新
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向仿真的Q学习攻击目标分配方法，包括以下步骤：(1)确定初始状态，获取红蓝双方空战态势信息，双方空战态势信息包括双方编队内飞机数量与编队飞机相关参数，为红方目标分配和空战模型计算提供输入；(2)确定红方编队所能执行的动作集，并严格规定完备的“状态‑动作”对；确定合适的概率ε值并采用ε‑贪婪策略进行红方动作选择；(3)规定Q学习算法回报函数、终止状态和收敛条件，应用Q学习算法为红进行攻击目标分配迭代直至满足收敛条件。本发明摆脱了对先验知识的依赖；对ε‑贪婪策略的引入，避免了陷入局部最优陷阱；通过对参数ε的设置，可以在算法效率与局部最优问题上寻求平衡。
搜索关键词：	一种面向仿真学习攻击目标分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向仿真的Q学习攻击目标分配方法，其特征在于，包括以下步骤：(1)确定初始状态，其中红方有s11架预警机；s12架巡逻飞机；蓝方有s21架干扰机；s22架突击飞机；红方预警机具有学习能力且不直接参与作战且假定不会被击落；获取红蓝双方空战态势信息，双方空战态势信息包括双方编队内飞机数量与编队飞机相关参数，为红方目标分配和空战模型计算提供输入；其中编队飞机相关参数包括双方飞机数量、指挥因子、战机易损性、多目标攻击能力、架次比、允许交战比、作战飞机的雷达反射截面积、作战飞机雷达抗干扰系数、机载雷达最大发现距离、机载空空弹最大有效射程、最大发现距离上对目标的发现概率、预警机有效发现目标概率、导弹数量和导弹评分；(2)确定红方编队所能执行的动作集，并严格规定完备的“状态‑动作”对,其形式如表2所示；确定合适的概率ε值并采用ε‑贪婪策略进行红方动作选择；表2 “状态‑动作”对表示形式选取ε＝0.1，即红方进行动作选择时，以0.9概率选取当前Q函数达到最大值的动作；同时以0.1的概率尝试其他不同的动作；(3)规定Q学习算法回报函数、终止状态和收敛条件，应用Q学习算法为红方进行攻击目标分配迭代直至满足收敛条件；红方回报函数定义如下：采用空战模型计算空战结果后，当判定蓝方突击飞机或干扰飞机有一架被击落，则红方获得一个+1的奖励；当判定红方巡逻飞机有一架被击落，则红方获得一个‑1的回报；在红方选择自卫规避即放弃制空权时，给予红方惩罚‑10；红方“状态‑动作”对的奖励折扣值更新方程如下：r_t+1即为红方执行动作的立即回报；代表在状态s_t+1下红方所有动作最大回报；γ∈[0,1]为折扣因子；a为红方所有可行动作集；Q(s_t,a_t)表示红方在状态s_t下采用动作a_t所获得的奖励折扣和；α为学习步长；定义终止状态为参战双方飞机中一方数量为0，每一次从任意初始状态出发达到终止状态的过程称为一幕；每次达到终止状态，判断红方“状态‑动作”对的奖励折扣值矩阵是否收敛；若没有收敛，滚回至初始状态重新迭代，直至红方“状态‑动作”对的奖励折扣值矩阵收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学，未经中国人民解放军国防科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610427869.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向仿真的Q学习攻击目标分配方法有效

专利文献下载