[发明专利]基于模仿学习和强化学习算法的无人机飞行控制方法有效
申请号: | 202011020765.3 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112162564B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 俞扬;詹德川;周志华;付聪;张云天;袁雷;庞竟成;罗凡明 | 申请(专利权)人: | 南京大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模仿 学习 强化 算法 无人机 飞行 控制 方法 | ||
本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。
技术领域
本发明涉及一种在复杂的、快速变化的环境下基于模仿学习和强化学习算法的无人机飞行控制方法,属于无人机控制技术领域。
背景技术
无人机在未知环境中的自主飞行问题一直是无人机自主飞行主要难点之一,传统的无人机飞行主要是采用基于规则的控制方法,先将环境可能带来的影响列举出来,再让相关领域专家去制定飞行规则。但是这方法一般只能在环境较为简单的情况下取得比较理想的效果。在复杂变化的环境下,由于受到的影响因素较多,周边的环境场景变化频繁,会出现大量的没有在训练数据中出现过的样本数据。飞行规则在这种情况下往往效果较差甚至无法工作。
近年来随着强化学习算法的发展,众多将其应用在围棋,Atari游戏等领域的研究取得一系列成果。一些无人机飞行领域的相关研究通过将使用强化学习算法,在构建了动力学仿真环境模拟器基础上,设计合理的奖赏函数,可以实现使无人机在复杂多变的情况下自主飞行控制取得较好的效果。由于训练采样丰富,使用强化学习得到的飞行控制策略,相比与规则控制无人机,在各种复杂变化情况下有着更加高效,灵活的优点。然而,在完整的一局飞行过程中,强化学习的探索学习空间过大,得到的奖励稀疏,效果严重依赖参数调优trick,训练困难。
对于该问题,一种改进方法是采用分层强化学习算法,将无人机自主飞行过程抽象分为两层,高层策略负责选择飞机的抽象的策略行动,底层策略负责探索该动作的最优飞行参数进行控制。该方法通过将飞行动作类型固定,缩小探索空间,降低学习难度。然而,在分层强化学习算法中,如何定义高层的抽象策略是一个较为困难的问题。常用的方法是基于当前模拟环境另外构建剥离了飞行细节的简化环境,在该环境中学习抽象策略。但当原始的仿真环境比较复杂时,往往难以构建简化的抽象环境。同时,如果底层的飞行控制参数直接在原始的动力学仿真环境模拟器中进行学习,最后学习出来的飞行动作连贯性、平稳性较差,与实际的飞行动作差别较大。
发明内容
发明目的:针对现有技术中无人机自主飞行问题,规则控制无法处理复杂变化环境,以及强化学习算法行动探索空间过大,奖励稀疏,学出的飞行策略不够平稳、波动较大等缺点,本发明提供一种基于模仿学习和强化学习算法的无人机飞行控制方法。
鉴于基于规则的专家系统具有能有效利用先验知识,简单高效,发展成熟等优点,同时也考虑到分层强化学习算法的优点和限制,本发明所采用的技术方案是基于分层强化学习算法思想,结合先验知识对其进行改进。先根据实际的完整飞行动作去定义高层的抽象动作空间,再通过底层的模仿学习去拟合对应的动作。本方法学习到的飞行控制方法动作连续流畅,与实际的飞行动作相似度较高。同时可以在后续在高层的抽象动作空间中加入新的飞行动作,可扩展性较强。
技术方案:一种基于模仿学习和强化学习算法的无人机飞行控制方法,包括如下内容:
(1)基于空气动力学构建无人机的环境模拟器;
(2)根据实际的飞行效果,定义19个机动动作;使用模仿学习,得到机动动作和模拟器中原始动作的映射网络,将定义机动动作的集合作为新的基本动作库;模拟器原始动作是模拟器中飞机的驾驶控杆指令:包括控制飞机飞行速度的油门控制指令,以及控制飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011020765.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种上引法无氧铜熔炼设备
- 下一篇:一种驾驶专用镜片的制造方法