[发明专利]一种基于课程学习的无人机空中博弈对抗的解决方法在审
申请号: | 202110445367.4 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113282061A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞扬;詹德川;周志华;周佳俊;庞竟成;罗凡明;秦熔均;管聪 | 申请(专利权)人: | 南京大学 |
主分类号: | G05B19/418 | 分类号: | G05B19/418;G06F30/28;G06N20/00 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 课程 学习 无人机 空中 博弈 对抗 解决方法 | ||
1.一种基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,包括如下步骤:
(1)构建基于空气动力学的仿真环境模拟器;
(2)收集飞行员控制飞机的真实轨迹数据作为专家轨迹,将轨迹数据按照机动动作难度进行课程目标分类;
(3)对指定课程目标下的轨迹,通过模仿学习来优化策略模型生成的轨迹和专家轨迹的相似度,从而完成该课程目标的学习;
(4)完成所有课程目标的学习之后,获得一个具有初始操控能力的预训练无人机策略模型;
(5)基于预训练无人机策略模型,在仿真环境模拟器中创建敌我双方无人机智能体;
(6)无人机在仿真环境模拟器中获得当前时刻的观测;
(7)无人机与模拟环境进行交互获得训练所需的状态、动作与奖励,将我方无人机与敌方无人机对抗的任务建模为一个强化学习智能体与环境交互的问题,用强化学习算法优化无人机对抗的飞行策略;
(8)获得无人机进行空中博弈对抗的有效策略。
2.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,利用模仿学习训练出一个具备初始操控能力的预训练无人机模型;基于预训练无人机策略模型,在模拟器中创建敌我双方无人机智能体进行空中对抗训练。
3.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,基于空气动力学构建的仿真环境模拟器应与真实环境中的无人机的操作特性和飞行特性相适应,模拟器应尽模拟无人机的飞行状态,并进行状态转移;模拟器要求能接受无人机的原始输入信息,并将部分环境信息、无人机自身状态信息以及对手的状态信息作为观测值返还给模拟器进行交互;此过程用马尔科夫决策过程(O,A,P,R)描述,其中观测信息O由我方无人机的状态信息S1和敌方无人机的状态信息S2组成;S1=h1,v1,g1,d1,α1,β1,γ1分别对应无人机当前的海拔高度、速度、加速度、与对手的相对距离、相对于北偏东坐标系的三个角度,S2与S1结构相同。
4.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,所述的专家轨迹是指,收集一批人类飞行员在模拟器中操控无人机进行空中对抗的飞行轨迹数据集合(τ1,τ2,...,τm),每一个轨迹形式为其中s是无人机当前的状态,a是无人机的动作。
5.根据权利要求2所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,所述的模仿学习,对于每一个机动动作,把模拟器中的轨迹对应的所有(状态-动作)抽取出来构造新的集合D={(s1,a1),(s2,a2),(s2,a2)...},将状态作为特征,动作作为标记学习而得到最优策略模型,模型的训练目标是使模型生成的状态-动作轨迹分布和输入的专家轨迹分布相匹配,从而达到行为克隆的效果。
6.根据权利要求2所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,所述的空中对抗训练指:无人机与模拟器交互,生成并保存训练数据,在环境模拟器提供的马尔科夫决策过程中对训练数据进行采样,使用近端策略优化算法训练无人机策略网络,直到我方无人机学得一个成功率达到预期的能够对抗敌方无人机的飞行策略。
7.根据权利要求6所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,所述的近端策略优化算法是一种基于Actor-Critic框架的强化学习算法;使用神经网络来表示无人机的飞行控制策略,用当前的飞行控制策略在模拟器中采集样本,并借助这些样本,用近端策略优化的方法优化当前无人机的飞行控制策略,直至策略不再提升;PPO的目标函数如下:
8.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法,其特征在于,建立一对一空战的优势函数;优势函数从角度、距离、高度、速度四个方面综合评价空战中我方无人机相对于目标的态势优劣;
1)角度优势:在空战环境中,当我方无人机处于对敌方无人机的尾追攻击态势时,处于优势;当我方无人机处于被敌方无人机尾追攻击态势时,处于劣势;当我方无人机与敌方无人机背向或相向飞行时则认为处于均势;
2)距离优势:距离优势函数与无人机的武器射程有关;如果敌方无人机处于我方无人机武器射程范围之内,且我方无人机处于敌方无人机武器射程范围之外,则我方无人机处于优势;如果我方无人机处于敌方无人机武器射程范围之内,且敌方无人机处于我方无人机武器射程范围之外,则我方无人机处于劣势;其他情况则认为处于均势。
3)高度优势:空战中,处于较高的相对高度具有势能优势,考虑武器性能因素,在攻击时存在最佳的攻击的高度差。在此高度差内,且我方无人机处于较高的一方时,我方无人机处于优势;在此高度差内,且我方无人机处于较低的一方时,我方无人机处于劣势;在高度差范围外,则认为处于均势;
4)速度优势:空战中,武器设计有相对与目标的最佳攻击速度;如果我方无人机的武器速度快于敌方无人机,则我方处于优势;如果我方无人机的武器速度慢于敌方无人机,则我方处于劣势;如果我方无人机的武器速度与敌方无人机相当,则认为处于均势;
以上四个优势函数的取值范围均为[0,1],在不同态势下,各个因素对空战态势的影响不同;因此,综合空战优势函数设为各因素优势函数的加权和:f=w1f1+w2f2+w3f3+w4f4,其中w1、w2、w3、w4分别是角度、距离、高度、速度优势函数的权重,各权重之和为1,但在不同态势下,各权重大小分配不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110445367.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:提升非标阳极板直接装槽生产工艺
- 下一篇:电线电缆反复弯曲试验机静音耐磨轨道