[发明专利]基于模仿学习和强化学习算法的无人机飞行控制方法有效
申请号: | 202011020765.3 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112162564B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 俞扬;詹德川;周志华;付聪;张云天;袁雷;庞竟成;罗凡明 | 申请(专利权)人: | 南京大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模仿 学习 强化 算法 无人机 飞行 控制 方法 | ||
1.一种基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,包括如下内容:
(1)基于空气动力学构建无人机的环境模拟器;
(2)根据实际的飞行效果,定义机动动作;
对于每一个机动动作,把环境模拟器中的驾驶杆指令轨迹对应的所有「状态-动作对」抽取出来构造新的集合将无人机自身的状态si作为特征,驾驶杆指令行动ai作为标记进行模仿学习;
模仿学习的神经网络是多层前馈神经网络,输入层是无人机自身的状态,输出是驾驶杆指令行动,激活函数是sigmoid函数;训练方法是使用BP算法,最小化训练集上的累计误差:
其中
其中m是当前机动动作状态-动作对的数据样本中样本数量,k是当前第k个样本,表示对于当前第k个样本,该状态对应的行动ak的第j个属性;
通过迭代对网络参数进行更新,直至达到最大迭代次数或者收敛为止,得到无人机基本动作网络,得到机动动作和模拟器中原始动作的映射网络,将定义的机动动作的集合作为新的基本动作库;
(3)通过使用强化学习算法,进行上层的策略选择,根据环境模拟器提供的观测信息,在新的基本动作库中选择飞行动作去规划无人机飞行,得到无人机自主飞行控制的智能体,将学习到的无人机自主飞行控制的智能体,迁移到真实环境中。
2.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述环境模拟器接受无人机的原始输入信息,并将环境信息和飞机自身状态信息作为观测值返还给无人机,这个过程定义为马尔可夫决策过程的元组形式(O,A,P,R),其中观测信息O由两部分组成,外部的环境信息E和无人机自身的状态信息S,其中S=<V,α,β,γ>,分别对应飞机当前的速度,相对于北偏东坐标系的三个角度。
3.根据权利要求2所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的无人机原始输入信息,指的是无人机行动集合A,模拟真实飞行的驾驶杆控制操作,包括控制飞机飞行速度的油门控制指令,以及控制飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令,其形式为a=<Δv,Δα,Δβ,Δγ>。
4.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的机动动作,是基于实际飞行员操作飞行指令,一共定义了19个机动动作,分别为:等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、斜斤斗、偏置、转入、向下斜斤斗、中断、S形、拦射、快转、抛射、偏置俯冲。
5.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,对于每一个机动动作,采集飞行员在无人机飞行过程中执行的实际飞行操作序列(τ1,τ2,...,τm),并将操作序列转换为环境模拟器中的驾驶杆指令其中表示第i条操作序列中无人机在n时刻的状态,表示无人机对于该状态所做出的动作;对于转换后的机动动作,对于模拟器中的实际效果进行调整,使其效果符合定义的机动动作,并且对于数据样本量不够的机动动作,在模拟器中直接输入指令,对样本进行扩充;对于扩充后的数据样本进行模仿学习。
6.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的模仿学习为:对于每一个机动动作,把环境模拟器中的轨迹对应的所有「状态-动作对」抽取出来构造新的集合将状态作为特征,驾驶杆指令作为标记学习而得到最优策略模型,模型的训练目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配。
7.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的策略选择算法,在使用强化学习算法Deep-Q-Learning的基础上,为了加强无人机飞行动作的连贯性,加入了非连续动作的惩罚,定义模型pDQN的损失函数如下:
目的是优化改函数,直至θ收敛;
其中,s代表当策略选择算法所选择的机动动作的最小连续数量;m是当前机动动作已经连续执行的数量;策略网络在t时刻选择机动动作的惩罚为Pt;rj+1表示当前的奖励,θ是状态行动价值模型Q的参数,是Target Network的参数,φj是当前无人机的状态,φj+1是下一时刻的状态,γ是折扣因子,A是机动动作集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011020765.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种上引法无氧铜熔炼设备
- 下一篇:一种驾驶专用镜片的制造方法