[发明专利]一种固定翼无人机自主控制协作策略训练方法有效
申请号: | 202010944803.8 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112034888B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 俞扬;詹德川;周志华;王超;袁雷;陈立坤;黄宇洋;庞竟成 | 申请(专利权)人: | 南京大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 固定 无人机 自主 控制 协作 策略 训练 方法 | ||
本发明公开一种固定翼无人机自主控制协作策略训练方法,包含以下步骤:(1)基于动力学构建固定翼无人机操控仿真环境Es,采集飞行员控制无人机的真实轨迹数据,通过监督学习的方式学习得到无人机飞行控制策略;(2)构建简化的剥离了飞行控制的抽象环境Ea,创建分组对抗的两组无人机群,使用APEX_QMIX算法学习得到协作策略;(3)以分层强化学习的方式将飞行控制策略和协作策略进行组合,在仿真环境Es中进学得融合策略;(3)迁移到真实环境。本发明方法在现实场景中意义重大,具有泛化性好,成本低,鲁棒性强等特性。
技术领域
本发明涉及一种基于分层强化学习和多智能体强化学习的固定翼无人机自主控制协作策略训练方法,无人机自主控制协作策略技术领域。
背景技术
对于传统的固定翼无人机自主控制协作策略,主要是采用自动化控制的方法,人工建模,制定策略。依赖相关领域专家的制定飞行规则。成本高昂且由于复杂变化的环境下场景变化频繁,存在大量的没有在飞行规则中没有考虑到的情况。因此通常飞行规则无法处理复杂变化的环境,能力较低。
最近,随着机器学习的技术蓬勃发展,强化学习为无人机自主控制策略带来了新的解决方案。强化学习是机器学习的一个分支,相较于机器学习经典的有监督学习、无监督学习问题,强化学习最大的特点是在交互中学习(Learning from Interaction)。Agent在与环境的交互中根据获得的奖励或惩罚不断的学习知识,更加适应环境。RL学习的范式非常类似于我们人类学习知识的过程,也正因此,RL被视为实现通用AI重要途径。通过强化学习的方法,构建动力学仿真环境模拟器,设计合理的奖赏函数,在模拟器环境中训练无人飞机的自主控制策略,更加高效,且成本低。并且由于训练采样丰富,使用强化学习学出的飞行控制策略往往能够面对各种复杂变化情况,相比与使用规则来控制无人机更加鲁棒、灵活。但是单纯强化学习也有其局限,探索学习空间过大,效果严重依赖参数调优trick,训练困难。
发明内容
发明目的:针对现有技术中的问题与不足,本发明提供一种基于分层强化学习和多智能体强化学习的固定翼无人机自主控制协作策略训练方法,将无人机自主控制协作策略抽象分为两层:高层策略负责协作策略,底层策略负责飞行控制。将策略解耦,缩小探索空间,降低学习难度。通过构建简化剥离了飞行控制的协作环境,使用APEX_QMIX算法的集中式学习,分布式执行应用的框架。进行selfplay,从零探索各种可能的协作策略。与此同时,在动力学仿真环境模拟器中进行飞行控制的学习。最终,将两个策略组合得到最终的无人机自主控制策略,迁移到真实环境。本方法具有泛化性好,低成本,鲁棒性强等特性。
技术方案:一种固定翼无人机自主控制协作策略训练方法,采用了分层强化学习的方法将无人机协作策略分为高层策略和底层策略;所述高层策略用于协作策略;所述底层策略用于飞行控制;基于动力学构建固定翼无人机操控仿真环境Es,用于训练无人机飞行控制及协作目标达成;此外,为了策略解耦,缩小探索空间,降低学习难度,构建简化的剥离了飞行控制的抽象环境Ea,用于预训练协作策略,加速协作策略的学习;所述底层策略通过监督学习的方式学习得到;将高层策略和底层策略进行策略融合,最终将训练好的自主控制协作策略用于真实环境中;使用APEX_QMIX算法,根据抽象环境Ea提供的观测信息进行协作策略的预训练,根据固定翼无人机操控仿真环境Es提供的观测信息进行融合策略的训练。
所述高层策略接受观测,给出飞行的目标点,控制无人机的协作;所述底层策略接受高层策略的目标点,选择最佳的飞行方式,以最快最优的方式飞到目标点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010944803.8/2.html,转载请声明来源钻瓜专利网。