[发明专利]一种基于强化学习的固定翼无人机群集控制方法有效
申请号: | 201910832116.4 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110502033B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王菖;闫超;相晓嘉;牛轶峰;尹栋;吴立珍;陈紫叶 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 固定 无人机 群集 控制 方法 | ||
本发明公开了一种基于强化学习的固定翼无人机群集控制方法,其包括:步骤S1、训练阶段:建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络,持续采集智能体与环境进行交互的历史经验,并存储到经验池中;从经验池中随机进行批次采样,不断更新执行器和评价器的网络参数,最终形成保存评价器网络模型;步骤S2、执行阶段:僚机通过传感器获取自身位置和姿态信息,载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,长机滚转角设定值由操控员给出;直至完成飞行任务。本发明具有较强的实时性和适应性、能够将仿真中训练得到的策略迁移到真实环境中等优点。
技术领域
本发明主要涉及到无人机技术领域,特指一种基于强化学习的固定翼无人机群集控制方法。
背景技术
近年来,随着传感器技术、通信技术以及智能控制技术的不断发展,无人机技术取得了长足的进步。固定翼无人机具有飞行速度快、续航能力强和有效载荷大等特点,在灾难搜救、边境巡逻、反恐等领域得到了广泛的应用。由于单架无人机性能的不足,上述任务通常需要多架无人机协同配合方能高效完成。然而,操控多架固定翼无人机需要大量的人力来监控每架飞机的状态,协调多架无人机遂行任务仍面临一定的挑战。
一致性理论被广泛用于解决无人机的群集控制问题。但该类方法依赖于平台和扰动的精确模型。这一模型通常具有复杂、时变、非线性的特点,加之传感器误差、环境扰动等随机因素的影响,往往难以精确建模,这严重限制了该类方法在真实世界的适用性。作为代替,应用强化学习方法解决上述矛盾得到了越来越多的关注。现有基于强化学习的群集控制解决方案主要针对旋翼无人机。与旋翼机相比,由于固定翼无人机的飞行动力学的非完整约束,固定翼无人机群集控制更加复杂,将强化学习算法应用于固定翼无人机协群集控制中的研究成果仍然较少。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种具有较强的实时性和适应性、能够将仿真中训练得到的策略迁移到真实环境中的基于强化学习的固定翼无人机群集控制方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于强化学习的固定翼无人机群集控制方法,其包括:
步骤S1、训练阶段:建立随机无人机动力学模型、执行器深度神经网络和评价器深度神经网络,持续采集智能体与环境进行交互的历史经验,并存储到经验池中;从经验池中随机进行批次采样,不断更新执行器和评价器的网络参数,最终形成保存评价器网络模型;
步骤S2、执行阶段:僚机通过传感器获取自身位置和姿态信息,载入评价器网络模型,评价器根据当前系统联合状态输出僚机最佳滚转动作,长机滚转角设定值由操控员给出;直至完成飞行任务。
作为本发明的进一步改进:所述步骤S1中包括:
步骤S11、考虑无人机在恒定高度飞行,其动力学模型用简化的四自由度模型描述;在滚转、空速各个子状态引入随机性,建立随机无人机动力学模型;
步骤S12、分别建立执行器深度神经网络和评价器深度神经网络,将输入状态映射到输出动作和该状态的累计折扣回报,并随机初始化网络参数;
步骤S13、持续采集智能体与环境进行交互的历史经验,所述智能体为僚机,并存储到经验池中;
步骤S14、从经验池中随机进行批次采样,应用Adam算法不断更新执行器和评价器的网络参数;所有样本均会用于更新评价器网络的参数,但只有TD误差为正的样本才会使执行器的网络参数发生改变;
步骤S15、当训练情节数达到预设条件时,结束所述交互过程,并保存评价器网络的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832116.4/2.html,转载请声明来源钻瓜专利网。