[发明专利]一种强化学习的无人机群在未知海域内协同搜索多动态目标方法有效
申请号: | 201910346512.6 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110196605B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 岳伟;关显赫;刘中常;王丽媛 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 无人 机群 未知 海域 协同 搜索 动态 目标 方法 | ||
本发明公开了一种强化学习的无人机群在未知海域内协同搜索多动态目标方法,包括以下步骤:S1:采用栅格法对搜索海域进行划分:根据无人机在一定区域内的信息素浓度建立领地意识信息图S2:根据无人机状态信息和决策u(k)设计Q值表;S3:根据无人机群当前状态的Q值采用Boltzmann分布机制选择无人机的飞行路线并执行;S4:利用搜索效能函数设计用来评价无人机飞行状态的奖惩函数,根据奖惩函数对无人机群到达的新状态的Q值进行更新;S5:将无人机群到达新状态更新为当前状态,持续作出飞行路线决策最终完成整个Q值表的学习,无人机群根据训练好的Q表做出决策,完成搜索任务。
技术领域
本发明涉及无人机控制技术领域,尤其涉及一种强化学习的无人机群在未知海域内协同搜索多动态目标方法。
背景技术
随着传感器、无线通信、智能控制等技术的迅猛发展,无人群体系统的功能日益增强,其应用领域不断扩大。无人群体系统因其可扩展性、强协作性和低损耗性,其协同理论与应用研究受到学术界、工业界和国防领域越来越多的关注,而多UAV协作搜索系统能有效提高搜索效率,尤其是针对存在不确定性、强干扰等复杂海况下动态目标的搜索存在着巨大优势,因此,多UAV协同海域搜索是无人群体系统研究的重要方向之一。
传统的搜索方法是采用覆盖式搜索,例如回字型搜索、遍历搜索等,这种搜索方式一般以最大化覆盖任务区域以发现尽可能多的目标,近年来,结合目标存在概率建立搜索图模型,使用分布式模型预测控制进行求解,有效降低了搜索决策问题的求解规模,但是仅限于静态目标的搜索。对于动态目标,使用贝叶斯方法计算平均检测时间和平均检测概率,但只适用于对海上单个目标的搜索,不能满足多目标搜索的需求。
发明内容
根据现有技术存在的问题,本发明公开了一种强化学习的无人机群在未知海域内协同搜索多动态目标方法,该方法首先考虑环境、无人机动态、目标动态及传感器探测模型,建立多UAV海域搜索图,然后,利用领地意识信息图的概念对搜索图进行更新,拓展原有的搜索图。最后利用强化学习方法,结合搜索效能函数设计奖惩函数,在线生成多UAV协同搜索的路径。
具体包括以下步骤:
S1:采用栅格法对搜索海域进行划分:基于海面环境、无人机动态、海面运动船舶动态和传感器探测模型信息建立多UAV海域搜索图;根据无人机在一定区域内的信息素浓度建立领地意识信息图,利用领地意识信息图拓展多UAV海域搜索图;
S2:根据无人机状态信息和决策u(k)设计Q值表;
S3:根据无人机群当前状态的Q值采用Boltzmann分布机制选择无人机的飞行路线并执行,当无人机群到达新状态时根据目标发现收益Jp、环境搜索收益Jχ、执行代价C、碰撞代价I的加权和得到搜索效能函数;
S4:利用搜索效能函数设计用来评价无人机飞行状态的奖惩函数,根据奖惩函数对无人机群到达的新状态的Q值进行更新;
S5:将无人机群到达新状态更新为当前状态,持续作出飞行路线决策最终完成整个Q值表的学习,无人机群根据训练好的Q表做出决策,完成搜索任务。
S1中具体采用如下方式:
S11:建立领地意识信息图:当无人机Vi搜索栅格(m,n)时产生信息素Hi(mn)(k),该信息素在搜索图中会向其他栅格处扩散,以栅格(a,b)处为例,其扩散传播函数为:
其中ρ,β为常量;
当Nv架无人机执行搜索任务时,则有Nv种信息素不断产生并扩散,以栅格(c,d)为例,当前时刻信息素浓度为上一时刻因挥发留下的信息素浓度与当前新产生的信息素扩散到该栅格浓度的总和,其更新方程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910346512.6/2.html,转载请声明来源钻瓜专利网。