[发明专利]基于DQN的无人机机动策略自主生成方法有效
申请号: | 201910853736.6 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110531786B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 张堃;李珂;时昊天;赵权 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dqn 无人机 机动 策略 自主 生成 方法 | ||
本发明提供了一种基于DQN的无人机机动策略自主生成方法,分别建立无人机三自由度运动模型、无人机机动控制模型、基准地形三维模型和山峰三维模型;计算无人机当前位置下所受地形障碍影响程度值;构建评价网络和目标网络,对评价网络进行训练;使用训练结果作为无人机飞行控制外环控制器,控制无人机的两向过载和无人机速度倾斜角。本发明将深度强化学习方法和无人机的制导与控制机动策略进行结合,在离线仿真环境中进行学习训练,达到要求后再进行实际应用,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
技术领域
本发明涉及飞行机动策略和人工智能领域,尤其涉及一种无人机机动策略自主生成方法。
背景技术
近年来,随着无人机技术的发展,无人机的性能飞速提高,不论是军用无人机还是民用无人机,各种新技术层出不穷。其中,提高无人机自主飞行能力,降低人为干预,避免人为失误,是各国无人机科研人员的研究重点。传统的无人机飞行导引通常在获取到需求任务区域内应飞航迹后,在飞行过程中通过控制无人机的机动策略,使之沿应飞航线飞行。传统的无人机的机动决策基于微分对策、矩阵博弈、动态规划、神经网络、专家系统、动态贝叶斯网络、影响图以及轨迹预测等方法。但是,当环境发生较大改变时,上述方法均没有自主解决突发事件的能力,只有无人机操纵者进行手动干预后,无人机才能继续完成任务,该过程极大地影响了无人机执行任务的效率。近年来,由于在电子技术方面的突破性进步,人工智能技术飞速发展,各种人工智能算法不断应用到控制领域。例如,Google公司的DeepMind人工智能小组,创新性地将深度强化学习方法应用到人形机器人的步态控制上并取得了成功;OpenAI实验室基于进化策略方法设计了一系列控制算法并成功商用。深度强化学习是多门学科多个领域交叉结合的产物,最早可以追溯到巴普洛夫的条件反射实验,但直到上世纪九十年代才逐渐被人们应用于自动控制、机器学习等领域。2015年,DeepMind(Google)在《Nature》上发布了深度Q学习算法(DeepQLearning,DQN),它是第一个成功地将深度学习和强化学习结合起来的模型。DQN的经验回放策略打破了传统强化学习样本的前后关联性,大大提高了学习效果。
发明内容
为了克服现有技术的不足,本发明提供一种基于DQN的无人机机动策略自主生成方法,在仿真环境中进行训练,训练成功后无人机可以自主生成机动策略,选择合理的机动动作,能够实现自主进行机动躲避障碍物,安全快速地从起点飞向终点,有效提升无人机自主飞行能力。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制库;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)与目标网络Q′(s,a),所述两个网络均属于深度神经网络;Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化;
Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;
定义状态空间式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间包括了飞机基本操作动作库中的7种基本机动ai,a=[Nx,Ny,γc],Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910853736.6/2.html,转载请声明来源钻瓜专利网。