[发明专利]基于模仿学习和强化学习算法的无人机飞行控制方法有效

专利信息
申请号: 202011020765.3 申请日: 2020-09-25
公开(公告)号: CN112162564B 公开(公告)日: 2021-09-28
发明(设计)人: 俞扬;詹德川;周志华;付聪;张云天;袁雷;庞竟成;罗凡明 申请(专利权)人: 南京大学
主分类号: G05D1/08 分类号: G05D1/08;G05D1/10
代理公司: 南京乐羽知行专利代理事务所(普通合伙) 32326 代理人: 李玉平
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 模仿 学习 强化 算法 无人机 飞行 控制 方法
【权利要求书】:

1.一种基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,包括如下内容:

(1)基于空气动力学构建无人机的环境模拟器;

(2)根据实际的飞行效果,定义机动动作;

对于每一个机动动作,把环境模拟器中的驾驶杆指令轨迹对应的所有「状态-动作对」抽取出来构造新的集合将无人机自身的状态si作为特征,驾驶杆指令行动ai作为标记进行模仿学习;

模仿学习的神经网络是多层前馈神经网络,输入层是无人机自身的状态,输出是驾驶杆指令行动,激活函数是sigmoid函数;训练方法是使用BP算法,最小化训练集上的累计误差:

其中

其中m是当前机动动作状态-动作对的数据样本中样本数量,k是当前第k个样本,表示对于当前第k个样本,该状态对应的行动ak的第j个属性;

通过迭代对网络参数进行更新,直至达到最大迭代次数或者收敛为止,得到无人机基本动作网络,得到机动动作和模拟器中原始动作的映射网络,将定义的机动动作的集合作为新的基本动作库;

(3)通过使用强化学习算法,进行上层的策略选择,根据环境模拟器提供的观测信息,在新的基本动作库中选择飞行动作去规划无人机飞行,得到无人机自主飞行控制的智能体,将学习到的无人机自主飞行控制的智能体,迁移到真实环境中。

2.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述环境模拟器接受无人机的原始输入信息,并将环境信息和飞机自身状态信息作为观测值返还给无人机,这个过程定义为马尔可夫决策过程的元组形式(O,A,P,R),其中观测信息O由两部分组成,外部的环境信息E和无人机自身的状态信息S,其中S=<V,α,β,γ>,分别对应飞机当前的速度,相对于北偏东坐标系的三个角度。

3.根据权利要求2所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的无人机原始输入信息,指的是无人机行动集合A,模拟真实飞行的驾驶杆控制操作,包括控制飞机飞行速度的油门控制指令,以及控制飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令,其形式为a=<Δv,Δα,Δβ,Δγ>。

4.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的机动动作,是基于实际飞行员操作飞行指令,一共定义了19个机动动作,分别为:等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、斜斤斗、偏置、转入、向下斜斤斗、中断、S形、拦射、快转、抛射、偏置俯冲。

5.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,对于每一个机动动作,采集飞行员在无人机飞行过程中执行的实际飞行操作序列(τ12,...,τm),并将操作序列转换为环境模拟器中的驾驶杆指令其中表示第i条操作序列中无人机在n时刻的状态,表示无人机对于该状态所做出的动作;对于转换后的机动动作,对于模拟器中的实际效果进行调整,使其效果符合定义的机动动作,并且对于数据样本量不够的机动动作,在模拟器中直接输入指令,对样本进行扩充;对于扩充后的数据样本进行模仿学习。

6.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的模仿学习为:对于每一个机动动作,把环境模拟器中的轨迹对应的所有「状态-动作对」抽取出来构造新的集合将状态作为特征,驾驶杆指令作为标记学习而得到最优策略模型,模型的训练目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配。

7.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的策略选择算法,在使用强化学习算法Deep-Q-Learning的基础上,为了加强无人机飞行动作的连贯性,加入了非连续动作的惩罚,定义模型pDQN的损失函数如下:

目的是优化改函数,直至θ收敛;

其中,s代表当策略选择算法所选择的机动动作的最小连续数量;m是当前机动动作已经连续执行的数量;策略网络在t时刻选择机动动作的惩罚为Pt;rj+1表示当前的奖励,θ是状态行动价值模型Q的参数,是Target Network的参数,φj是当前无人机的状态,φj+1是下一时刻的状态,γ是折扣因子,A是机动动作集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011020765.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top