[发明专利]运动学约束条件下基于深度强化学习的UAV路径规划方法在审
申请号: | 202111282488.8 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114003059A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 高明生;张晓璇 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 丁燕华 |
地址: | 213000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 运动学 约束 条件下 基于 深度 强化 学习 uav 路径 规划 方法 | ||
本发明公开一种运动学约束条件下基于深度强化学习的UAV路径规划方法,具体步骤如下:S1:深度强化学习神经网络根据多个任务点以及静态障碍物的向量坐标得出最短路径;S2:无人机起飞后沿着最短路径飞行执行任务;S3:当探测到存在动态障碍物,无人机向基地发送信号,由超级计算机预测无人机接收信号时所在的位置;S4:根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出得到新的飞行路径,并通过无线电将新的路径发送给无人机;S5:无人机沿着新的路径执行任务,执行完所有任务后最终返回基地。本发明提出了一种基于online和offline的框架,不仅解决了Q‑Learning中状态和动作都是高维的问题,而且在解决TSP问题的同时考虑运动学模型并避开动态障碍物。
技术领域
本发明属于无人机路径规划设计领域,具体涉及一种运动学约束条件下基于深度强化学习的UAV路径规划方法。
背景技术
在民用、军事等领域中,无人机通常要在多个目标点执行任务,而寻找一条最优路径来遍历所有目标点是无人机应用研究的一项关键技术,即路径规划问题。
通常地,路径规划问题分为以下三类:
1)数值方法,如混合整数规划的方法;但数值方法通常需要求解非凸优化的问题,不仅需要专门的商用软件(如CPLEX)且耗时长。
2)传统智能算法,如遗传算法,蚁群算法,贪婪算法,模拟退火法等。然而,群智能算法容易陷入局部最优,并由于其算子的实现拥有许多参数,如交叉率和变异率,这些参数的选择,可能会导致求解过早收敛的问题;且传统智能算法只能给出接近最优的解决方案,无法保证或者全局最优解。
3)基于强化学习的算法。强化学习的原理是智能体通过观察当前状态选择动作,并根据得到的奖励值进行学习的算法。相较于数值算法和传统智能算法,强化学习基于马尔可夫过程,其利用马尔可夫矩阵必定收敛的性质进行全局规划。
发明内容
为解决现有技术中的不足,本发明提供一种运动学约束条件下基于深度强化学习的UAV路径规划方法,提出了一种基于online和offline的框架,不仅解决了Q-Learning中状态和动作都是高维的问题,而且在解决TSP问题的同时考虑运动学模型并避开动态障碍物。
本发明中主要采用的技术方案为:
一种运动学约束条件下基于深度强化学习的UAV路径规划方法,具体步骤如下:
S1:当无人机在基地时,根据多个任务点以及静态障碍物的向量坐标,使用深度强化学习神经网络得出无人机在运动学约束下的最短路径;
S2:无人机起飞后沿着最短路径飞行执行任务;
S3:在执行任务过程中,当无人机上的雷达探测到5km里内存在动态障碍物,无人机通过无线电向基地发送动态障碍物以及剩余任务点的向量坐标,并在收到基地的反馈信号前,沿着原先路径飞行,基地的超级计算机根据无人机从发送信号到接收信号的时间t0预测无人机接收信号时所在的位置;
S4:基地的超级计算机根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出所有动作的Q值,并由此生成新的动作选择策略ε-greedy,根据新的动作选择策略ε-greedy选择动作即得到新的飞行路径,并通过无线电将新的路径发送给无人机;
S5:无人机在收到反馈信号后,沿着新的路径执行任务,执行完所有任务后最终返回基地,无人机任务完成。
优选地,所述步骤S1中使用深度强化学习神经网络得出无人机在运动学约束下的最短路径的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111282488.8/2.html,转载请声明来源钻瓜专利网。