[发明专利]基于深度强化学习的四旋翼无人机自主导航方法与系统在审

申请号：	202210011567.3	申请日：	2022-01-06
公开（公告）号：	CN114355980A	公开（公告）日：	2022-04-15
发明（设计）人：	朱光耀;王成光;杨根科;褚健;王宏武	申请（专利权）人：	上海交通大学宁波人工智能研究院
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	上海剑秋知识产权代理有限公司 31382	代理人：	徐浩俊;徐海兵
地址：	315012 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习四旋翼无人机自主导航方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的四旋翼无人机自主导航方法，其特征在于，所述方法包括以下步骤：

步骤1、构建适用于四旋翼无人机自主导航的DDPG网络模型，并使用2D-GA算法来训练所述DDPG网络模型；

步骤2、获得所述四旋翼无人机的位姿并建立ESDF地图；

步骤3、在所述ESDF地图上，先用路径搜索算法得到离散路径点序列；

步骤4、将由所述位姿组成的位姿向量、所述ESDF地图组成的ESDF地图矩阵、所述离散路径点序列组成的离散路径点向量并行输入特征提取网络，并将所述特征提取网络提取的若干特征拼接成一个组合特征输入到所述DDPG网络模型中，输出动作a给控制模块；

步骤5、所述控制模块将所述动作a转化成所述四旋翼无人机的四个电机的转速并执行；

步骤6、在所述四旋翼无人机执行完所述动作a之后，根据奖励函数计算奖励r，并判断是否到达目的地；如果没有到达所述目的地，则重复所述步骤2到所述步骤6，直到到达所述目的地。

2.如权利要求1所述的基于深度强化学习的四旋翼无人机自主导航方法，其特征在于，所述步骤1包括以下步骤：

步骤1.1、随机初始化所述DDPG网络模型的Actor网络π和Critic网络Q，同时，初始化Actor目标网络π′和Critic目标网络Q′，权重分别与所述Actor网络π和所述Critic网络Q相同，并初始化经验回放池；

步骤1.2、初始化所述四旋翼无人机的状态s，所述状态s包括初始位姿向量、初始ESDF地图矩阵、初始离散路径点向量，并使用随机策略输出所述动作a；在所述四旋翼无人机执行完所述动作a之后，使用所述奖励函数得到执行完所述动作a的所述奖励r以及下一时刻所述四旋翼无人机的状态s′，其中，所述初始ESDF地图矩阵会随着所述四旋翼无人机的飞行不断更新；将序列(s，a，r，s′)存入所述经验回放池中；重复直到所述经验回放池中达到预定数量的所述(s，a，r，s′)序列；

步骤1.3、从所述经验回放池中取出m个所述(s，a，r，s′)序列作为同一批进行训练，使用梯度下降法更新所述Actor网络π和所述Critic网络Q的权重；

步骤1.4、在一批训练结束后，使用所述2D-GA算法对多线程并行执行的所述Actor网络π和所述Critic网络Q的权重进行保留和剔除，加快训练速度；

步骤1.5、对所述Actor目标网络π′和所述Critic目标网络Q′的权重进行软更新：

θ^μ′＝τθ^μ+(1-τ)θ^μ′

θ^ω′＝τθ^ω+(1-τ)θ^ω′

重复所述步骤1.3到1.5，直到训练结果达到预期要求；

其中，τ表示用来控制权重软更新速度的参数，θ^μ表示所述Actor网络π的网络权重，θ^μ′表示所述Actor目标网络π′的网络权重；θ^ω表示所述Critic网络Q的网络权重，θ^ω′表示所述Critic目标网络Q′的网络权重。

3.如权利要求2所述的基于深度强化学习的四旋翼无人机自主导航方法，其特征在于，在开始所述步骤1之前将预先设计状态空间、动作空间和所述奖励函数；

所述状态空间包括无人机自身状态、环境信息以及前端路径搜索得到的离散路径点，将所述无人机自身状态、所述环境信息和所述前端路径搜索得到的离散路径点并行输入各自的特征网络进行处理，并拼接成一个组合特征输入到所述DDPG网络模型。

4.如权利要求3所述的基于深度强化学习的四旋翼无人机自主导航方法，其特征在于，所述动作空间为四个连续变量：四旋翼提供的总升力F、三个姿态角的角加速度ω_x、ω_y、ω_z；根据所述姿态的所述角加速度和欧拉方程可以求出所述四旋翼无人机三个轴的转矩M₁、M₂、M₃，再加上所述总升力F计算出所述四旋翼无人机四个电机的转速f₁、f₂、f₃、f₄。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学宁波人工智能研究院，未经上海交通大学宁波人工智能研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210011567.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种电脉冲控制系统和方法
下一篇：一种线路板的填孔方法和双面线路板的制作方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的四旋翼无人机自主导航方法与系统在审

专利文献下载