[发明专利]运动学约束条件下基于深度强化学习的UAV路径规划方法在审
申请号: | 202111282488.8 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114003059A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 高明生;张晓璇 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 丁燕华 |
地址: | 213000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 运动学 约束 条件下 基于 深度 强化 学习 uav 路径 规划 方法 | ||
1.一种运动学约束条件下基于深度强化学习的UAV路径规划方法,其特征在于,具体步骤如下:
S1:当无人机在基地时,根据多个任务点以及静态障碍物的向量坐标,使用深度强化学习神经网络得出无人机在运动学约束下的最短路径;
S2:无人机起飞后沿着最短路径飞行执行任务;
S3:在执行任务过程中,当无人机上的雷达探测到5km里内存在动态障碍物,无人机通过无线电向基地发送动态障碍物以及剩余任务点的向量坐标,并在收到基地的反馈信号前,沿着原先路径飞行,基地的超级计算机根据无人机从发送信号到接收信号的时间t0预测无人机接收信号时所在的位置;
S4:基地的超级计算机根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出所有动作的Q值,并由此生成新的动作选择策略ε-greedy,根据新的动作选择策略ε-greedy选择动作即得到新的飞行路径,并通过无线电将新的路径发送给无人机;
S5:无人机在收到反馈信号后,沿着新的路径执行任务,执行完所有任务后最终返回基地,无人机任务完成。
2.根据权利要求1所述的运动学约束条件下基于深度强化学习的UAV路径规划方法,其特征在于,所述步骤S1中使用深度强化学习神经网络得出无人机在运动学约束下的最短路径的具体步骤如下:
S1-1:当无人机在基地时,将N个目标任务点依次编号为1,2,3……N,将基地编号为0,设无人机的状态向量维度为N+2,且无人机状态向量中第一位为0,代表基地编号,最后一位为θi,代表当前编号为i的任务点入射角,中间的位数根据无人机到达的任务点更新为任务点编号,因此,无人机在基地的初始状态向量如下所示:
sinitial=[0,0,0,...,0,θ0]T (1);
其中,第一位为0,代表基地编号,其他的0代表任务点未到达时的初始状态,θ0表示无人机在基地0处的入射角;
S1-2:将无人机状态向量作为深度强化学习神经网络的输入,由深度强化学习神经网络求解选择哪一种动作可以使得在运动学约束下总距离最短,即Q值最大,由此生成动作选择策略ε-greedy;
S1-3:深度强化学习神经网络根据动作选择策略ε-greedy选择动作,决定去往哪个任务点以及以什么角度飞出,当随机数小于ε时,随机探索,当随机数大于等于ε时,选择Q值最大的动作,因此,无人机的状态更新为:
sbcd=[0,b,c,d,0…,0,θd]T (2);
其中,b,c,d为无人机依次到达的任务点编号,θd为任务点编号为d的入射角,无人机的状态向量为无人机已经飞行的任务点编号顺序,每做一个动作,无人机的状态向量就更新一次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111282488.8/1.html,转载请声明来源钻瓜专利网。