[发明专利]一种基于并行自我博弈的空战机动方法在审
申请号: | 202110364109.3 | 申请日: | 2021-04-03 |
公开(公告)号: | CN113095481A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 李波;甘志刚;梁诗阳;高晓光;万开方;越凯强;杨志鹏 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F30/20 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 并行 自我 博弈 空战 机动 方法 | ||
本发明公开了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。
技术领域
本发明属于无人机技术领域,具体涉及一种空战机动方法。
背景技术
自主空战机动决策是指:基于数学优化、人工智能等方法,模拟各种空战态势下飞行员空战决策,自动生成对飞行器(包括有人、无人机等)操纵决策的过程。
按照方法的不同,常见的无人机机动决策可以分为传统方法以及智能方法。传统方法指采取专家知识、公式推导、影响图等方法来实现择优决策过程,这类方法更注重先验知识或数学运算,对于决策往往不具备自优化过程。智能方法指使用诸如遗传算法、贝叶斯、人工智能等具有自学习、自优化能力的智能方法来实现无人机的机动控制,这类方法一般可以根据态势目标自主达到策略的优化。
然而,在解决敌我对抗问题时,这些方法均为在单一确定环境下训练,智能体学习得到的策略模型会过于适应当前环境及态势,具有较弱的鲁棒性。当应用至新环境或改变自身初始态势,策略模型将无法准确选择合理的决策动作。若在面临新环境时从头学习,则会消耗大量的训练时间。
发明内容
为了克服现有技术的不足,本发明提供了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;:然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364109.3/2.html,转载请声明来源钻瓜专利网。