[发明专利]一种固定翼无人机自主控制协作策略训练方法有效

申请号：	202010944803.8	申请日：	2020-09-10
公开（公告）号：	CN112034888B	公开（公告）日：	2021-07-30
发明（设计）人：	俞扬;詹德川;周志华;王超;袁雷;陈立坤;黄宇洋;庞竟成	申请（专利权）人：	南京大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种固定无人机自主控制协作策略训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种固定翼无人机自主控制协作策略训练方法，包含以下步骤：(1)基于动力学构建固定翼无人机操控仿真环境E_s，采集飞行员控制无人机的真实轨迹数据，通过监督学习的方式学习得到无人机飞行控制策略；(2)构建简化的剥离了飞行控制的抽象环境E_a，创建分组对抗的两组无人机群，使用APEX_QMIX算法学习得到协作策略；(3)以分层强化学习的方式将飞行控制策略和协作策略进行组合，在仿真环境E_s中进学得融合策略；(3)迁移到真实环境。本发明方法在现实场景中意义重大，具有泛化性好，成本低，鲁棒性强等特性。

技术领域

本发明涉及一种基于分层强化学习和多智能体强化学习的固定翼无人机自主控制协作策略训练方法，无人机自主控制协作策略技术领域。

背景技术

对于传统的固定翼无人机自主控制协作策略，主要是采用自动化控制的方法，人工建模，制定策略。依赖相关领域专家的制定飞行规则。成本高昂且由于复杂变化的环境下场景变化频繁，存在大量的没有在飞行规则中没有考虑到的情况。因此通常飞行规则无法处理复杂变化的环境，能力较低。

最近，随着机器学习的技术蓬勃发展，强化学习为无人机自主控制策略带来了新的解决方案。强化学习是机器学习的一个分支，相较于机器学习经典的有监督学习、无监督学习问题，强化学习最大的特点是在交互中学习(Learning from Interaction)。Agent在与环境的交互中根据获得的奖励或惩罚不断的学习知识，更加适应环境。RL学习的范式非常类似于我们人类学习知识的过程，也正因此，RL被视为实现通用AI重要途径。通过强化学习的方法，构建动力学仿真环境模拟器，设计合理的奖赏函数，在模拟器环境中训练无人飞机的自主控制策略，更加高效，且成本低。并且由于训练采样丰富，使用强化学习学出的飞行控制策略往往能够面对各种复杂变化情况，相比与使用规则来控制无人机更加鲁棒、灵活。但是单纯强化学习也有其局限，探索学习空间过大，效果严重依赖参数调优trick，训练困难。

发明内容

发明目的：针对现有技术中的问题与不足，本发明提供一种基于分层强化学习和多智能体强化学习的固定翼无人机自主控制协作策略训练方法，将无人机自主控制协作策略抽象分为两层：高层策略负责协作策略，底层策略负责飞行控制。将策略解耦，缩小探索空间，降低学习难度。通过构建简化剥离了飞行控制的协作环境，使用APEX_QMIX算法的集中式学习，分布式执行应用的框架。进行selfplay，从零探索各种可能的协作策略。与此同时，在动力学仿真环境模拟器中进行飞行控制的学习。最终，将两个策略组合得到最终的无人机自主控制策略，迁移到真实环境。本方法具有泛化性好，低成本，鲁棒性强等特性。

技术方案：一种固定翼无人机自主控制协作策略训练方法，采用了分层强化学习的方法将无人机协作策略分为高层策略和底层策略；所述高层策略用于协作策略；所述底层策略用于飞行控制；基于动力学构建固定翼无人机操控仿真环境E_s，用于训练无人机飞行控制及协作目标达成；此外，为了策略解耦，缩小探索空间，降低学习难度，构建简化的剥离了飞行控制的抽象环境E_a，用于预训练协作策略，加速协作策略的学习；所述底层策略通过监督学习的方式学习得到；将高层策略和底层策略进行策略融合，最终将训练好的自主控制协作策略用于真实环境中；使用APEX_QMIX算法，根据抽象环境E_a提供的观测信息进行协作策略的预训练，根据固定翼无人机操控仿真环境E_s提供的观测信息进行融合策略的训练。

所述高层策略接受观测，给出飞行的目标点，控制无人机的协作；所述底层策略接受高层策略的目标点，选择最佳的飞行方式，以最快最优的方式飞到目标点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010944803.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种幕墙、具有该幕墙的墙体及一种幕墙的安装方法
下一篇：一种用于角抛光硅片样品的装置、设备及方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种固定翼无人机自主控制协作策略训练方法有效

专利文献下载