[发明专利]基于深度强化学习的四旋翼无人机自主导航方法与系统在审
申请号: | 202210011567.3 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114355980A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 朱光耀;王成光;杨根科;褚健;王宏武 | 申请(专利权)人: | 上海交通大学宁波人工智能研究院 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 上海剑秋知识产权代理有限公司 31382 | 代理人: | 徐浩俊;徐海兵 |
地址: | 315012 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 四旋翼 无人机 自主 导航 方法 系统 | ||
本发明公开了一种基于深度强化学习的四旋翼无人机自主导航方法与系统,涉及四旋翼无人机和深度强化学习领域,方法包括以下步骤:步骤1、构建DDPG网络模型,并使用2D‑GA算法来训练DDPG网络模型;步骤2、获得四旋翼无人机的位姿并建立ESDF地图;步骤3、在ESDF地图上,用路径搜索算法得到离散路径点序列;步骤4、将位姿向量、ESDF地图矩阵、离散路径点向量并行输入特征提取网络,并将提取的若干特征拼接成一个组合特征输入到DDPG网络模型中,输出动作a;步骤5、控制模块将动作a转化成四旋翼无人机的四个电机的转速并执行;步骤6、在执行完动作a之后,根据奖励函数计算奖励r,判断是否到达目的地;如果没有到达目的地,则重复步骤2到步骤6。
技术领域
本发明涉及四旋翼无人机和深度强化学习领域,尤其涉及一种基于深度强化学习的四旋翼无人机自主导航方法与系统。
背景技术
近年来,随着传感器设备和MEMS(Micro Electro Mechanical System,微机电系统)芯片的发展,四旋翼无人机已广泛应用于航拍、搜索和救援等领域。为了能够在未知杂乱的环境中完成任务,无人机的自主导航能力至关重要。
无人机自主导航系统主要由状态估计、环境感知、运动规划、动态控制这几个模块组成。状态估计和环境感知统称为SLAM(Simultaneous Localization And Mapping,同步定位与建图)系统,即利用无人机搭载的视觉传感器或者激光雷达实现自身的定位和对地图的构建。运动规划模块则根据SLAM模块得到的无人机位姿和地图信息,规划出一条可执行的轨迹,发送给底层的控制模块。控制模块通常是由飞控设备完成,实现无人机对期望轨迹的精准追踪。随着科学技术的发展,状态估计、环境感知、动态控制都具有了很高的可靠性、适用性和鲁棒性,所以运动规划模块能否输出一条光滑、安全并且动力学可行的轨迹,对于无人机的自主导航至关重要。
传统的运动规划方法主要由前端的路径搜索和后端的轨迹优化两部分组成。前端使用A*、RRT(Rapidly-Exploring Random Tree,快速扩展随机树)等路径搜索算法在低维的状态空间内得到一个离散的初始解,然后后端在连续空间内对前端的低维近似解进行优化,得到一个可供控制器执行的高质量解。上述方法主要适用于环境已知并且是静态的情况,当环境未知并且存在动态变化时,无人机需要具备在线实时局部重规划能力,即根据传感器得到的信息更新地图,并临时重新规划局部轨迹以避免碰撞。传统方法通常采用非线性优化来进行局部重规划,也就是设计一个目标函数对无人机轨迹的安全性、光滑性和动力学可行性进行约束,但该非线性优化通常是一个非凸问题,求解过程中容易陷入局部极值,并且求解优化问题的速度很难满足无人机在未知环境中高机动性飞行的要求。
强化学习是机器学习的一个分支,通过智能体与环境进行交互来学习策略以最大化期望累积回报。传统的强化学习方法,比如Q-learning(Q值学习),只能处理有限维度的状态和动作空间,极大地限制了强化学习在实际中的应用。而随着近年来深度学习的发展,与之相结合产生的深度强化学习很好地解决了维度爆炸的问题,并将离散的状态和动作空间扩展到了连续空间,从而在机器人控制领域也有了广泛的应用。使用深度强化学习进行无人机自主导航,计算处理速度快,不容易陷入局部最优,适合在未知环境中实时处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学宁波人工智能研究院,未经上海交通大学宁波人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210011567.3/2.html,转载请声明来源钻瓜专利网。