[发明专利]一种基于分层强化学习的多无人机路径协同规划方法及装置有效

申请号：	201910268774.5	申请日：	2019-04-04
公开（公告）号：	CN109992000B	公开（公告）日：	2020-07-03
发明（设计）人：	曹先彬;杜文博;朱熙;郭通;李宇萌	申请（专利权）人：	北京航空航天大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	安丽;成金玉
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明一种一种基于分层强化学习的多无人机路径协同规划方法及装置，提取多无人机中的每个无人机的特征空间；再依据多无人机中无人机的任务目标，对任务目标中需要执行的任务进行分层即分为多个子任务，每一个子任务由一个神经网络实现，形成由多个子任务构成的各神经网络，并初始化各神经网络参数，得到初始各神经网络；对各神经网络进行关联；输出结果与目标输出之间的差距作为损失函数，利用梯度下降对进行各神经网络进行参数更新，当损失函数的值小于给定阈值时或达到指定的步数时，各神经网络训练完毕；将各自特征空间中的特征向量依次通过步各神经网络，得到各输出值；选取使最大的动作，作为各无人机的控制信号，即实现多无人机协同路径规划。
搜索关键词：	一种基于分层强化学习无人机路径协同规划方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于分层强化学习的多无人机路径协同规划方法，其特征在于，包括以下步骤：步骤S01：提取多无人机中的每个无人机的特征向量(S_t，a_t)，S_t为无人机状态向量，a_t为无人机每一时刻t所采取的动作；所有无人机的特征向量组成特征空间(S，A)，S代表无人机的状态向量；A代表无人机采取的动作；对所有的特征空间进行存储，形成记忆库ERB(Experience Replay Buffer)；再依据多无人机中无人机的任务目标，对任务目标中需要执行的任务进行分层即分为多个子任务，每一个子任务由一个神经网络实现，形成由多个子任务构成的各神经网络，并初始化各神经网络参数，得到初始各神经网络；步骤S02：对各神经网络进行关联，将步骤S01所获得的特征空间中所有的特征向量依次通过初始各神经网络，得到输出结果，记为Q_eval(S，A，θ₀)，θ₀是初始各神经网络的参数；再依据强化学习时序差分预测理论，计算目标输出值Q_target(S，A，θ₀)，特征空间(S，A)与Q_target(S，A，θ₀)目标输出值一起，得到各神经网络的训练集{(S，A)，Q_target(S，A，θ₀)}；步骤S03：最小化步骤S02中得到的输出结果与目标输出值Q_target(S，A，θ₀)之间的差距|Q_eval(S，A，θ₀)‑Q_target(S，A，θ₀)|²，作为损失函数，利用梯度下降对进行各神经网络进行参数更新，不断更新θ₀，当损失函数的值小于给定阈值时或达到指定的步数时，认为各神经网络训练完毕，得到收敛的各神经网络；步骤S04：在上述步骤得到收敛的各神经网络后，控制多无人机进行协同路径规划，利用步骤S01所述方法，对各无人机所采集到的雷达观测信号进行量化，得到各自的特征空间；将各自特征空间中的特征向量依次通过步骤S03获得的收敛的各神经网络，得到各输出值；选取使最大的动作，作为各无人机的控制信号，即实现多无人机协同路径规划。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910268774.5/，转载请声明来源钻瓜专利网。

上一篇：无人机编队自定位系统及方法
下一篇：一种无人机安全降落方法、装置及无人机

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分层强化学习的多无人机路径协同规划方法及装置有效

专利文献下载