[发明专利]一种基于分层强化学习的多无人机路径协同规划方法及装置有效
申请号: | 201910268774.5 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109992000B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 曹先彬;杜文博;朱熙;郭通;李宇萌 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽;成金玉 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 强化 学习 无人机 路径 协同 规划 方法 装置 | ||
1.一种基于分层强化学习的多无人机路径协同规划方法,其特征在于,包括以下步骤:
步骤S01:提取多无人机中的每个无人机的特征向量(St,at),St为无人机状态向量,at为无人机每一时刻t所采取的动作;所有无人机的特征向量组成特征空间(S,A),S代表无人机的状态向量;A代表无人机采取的动作;对所有的特征空间进行存储,形成记忆库ERB(Experience Replay Buffer);再依据多无人机中无人机的任务目标,对任务目标中需要执行的任务进行分层即分为多个子任务,每一个子任务由一个神经网络实现,形成由多个子任务构成的各神经网络,并初始化各神经网络参数,得到初始各神经网络;
步骤S02:对各神经网络进行关联,将步骤S01所获得的特征空间中所有的特征向量依次通过初始各神经网络,得到输出结果,记为Qeval(S,A,θ0),θ0是初始各神经网络的参数;再依据强化学习时序差分预测理论,计算目标输出值Qtarget(S,A,θ0),特征空间(S,A)与Qtarget(S,A,θ0)目标输出值一起,得到各神经网络的训练集{(S,A),Qtarget(S,A,θ0)};
步骤S03:最小化步骤S02中得到的输出结果与目标输出值Qtarget(S,A,θ0)之间的差距|Qeval(S,A,θ0)-Qtarget(S,A,θ0)|2,作为损失函数,利用梯度下降对进行各神经网络进行参数更新,不断更新θ0,当损失函数的值小于给定阈值时或达到指定的步数时,认为各神经网络训练完毕,得到收敛的各神经网络;
步骤S04:在上述步骤得到收敛的各神经网络后,控制多无人机进行协同路径规划,利用步骤S01所述方法,对各无人机所采集到的雷达观测信号进行量化,得到各自的特征空间;将各自特征空间中的特征向量依次通过步骤S03获得的收敛的各神经网络,得到各输出值;选取最大的动作,作为各无人机的控制信号,即实现多无人机协同路径规划。
2.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:步骤S01中,提取多无人机中的每个无人机的特征向量(St,at)的过程如下:
获取多无人机中每个无人机的雷达观测信号,雷达观测信号包含无人机的位置信息和速度信息,对所述雷达观测信号进行模数转换得到数字化表示的无人机状态向量St=(x0,y0,z0,vx,vy,vz,d),其中t表示当前时刻,(x0,y0,z0)为此时无人机在三维空间中的坐标,(vx,vy,vz)为此时无人机的速度在三个方向上的分解,d为无人机与障碍物之间的距离;获取无人机每一时刻t所采取的动作at,与状态向量一起组成特征向量(St,at),所有的特征向量(St,at)组成特征空间(S,A)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910268774.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:无人机编队自定位系统及方法
- 下一篇:一种无人机安全降落方法、装置及无人机