[发明专利]一种强化学习的无人机群在未知海域内协同搜索多动态目标方法有效
申请号: | 201910346512.6 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110196605B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 岳伟;关显赫;刘中常;王丽媛 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 无人 机群 未知 海域 协同 搜索 动态 目标 方法 | ||
1.一种强化学习的无人机群在未知海域内协同搜索多动态目标方法,其特征在于包括以下步骤:
S1:采用栅格法对搜索海域进行划分:基于海面环境、无人机动态、海面运动船舶动态和传感器探测模型信息建立多UAV海域搜索图;根据无人机在一定区域内的信息素浓度建立领地意识信息图,利用领地意识信息图拓展多UAV海域搜索图;
S2:根据无人机状态信息和决策u(k)设计Q值表;
S3:根据无人机群当前状态的Q值采用Boltzmann分布机制选择无人机的飞行路线并执行,当无人机群到达新状态时根据目标发现收益Jp、环境搜索收益Jχ、执行代价C、碰撞代价I的加权和得到搜索效能函数;
S4:利用搜索效能函数设计用来评价无人机飞行状态的奖惩函数,根据奖惩函数对无人机群到达的新状态的Q值进行更新;
S5:将无人机群到达新状态更新为当前状态,持续作出飞行路线决策最终完成整个Q值表的学习,无人机群根据训练好的Q表做出决策,完成搜索任务;
S1中具体采用如下方式:
S11:建立领地意识信息图:当无人机Vi搜索栅格(m,n)时产生信息素Hi(mn)(k),该信息素在搜索图中会向其他栅格处扩散,则栅格(a,b)处的信息素扩散传播函数为:
其中ρ,β为常量;
当Nv架无人机执行搜索任务时,则有Nv种信息素产生并扩散,设栅格(c,d)处、当前时刻信息素浓度为上一时刻因挥发留下的信息素浓度与当前新产生的信息素扩散到该栅格浓度的总和,其更新方程为:
其中,τH∈[0,1]为挥发因子;
当无人机Vi检测到栅格(m,n)中其他种类信息素浓度高时,表示其他UAV在栅格(m,n)处活动频繁,无人机Vi检测到的其他种类信息素浓度为:
S12:建立目标概率图:目标概率更新公式为,
式中pmn(k)为k时刻目标在(m,n)处存在的概率,pD为传感器探测概率;pF为传感器虚警概率;τ∈[0,1]为目标概率动态信息因子,ΔPmn(k)为概率改变量,即当栅格(m,n)未被UAV访问时,由于其他栅格被访问,引起的栅格(m,n)处概率发生变化:
式中,D(k)为k时刻所有被访问的栅格的集合;Nv为无人机数量;
S13:建立确定度图:确定度更新方程为,
其中,τc为确定度的动态信息因子;χ∈[0,1]为一常数;
S14:设Hmn(k)为栅格(m,n)处总的信息素浓度,其中信息素浓度是关于栅格位置和时间的函数,获取环境搜索图为
S2中具体采用如下方式:
其中Q值表的大小由无人机状态和输入的控制指令,其中位置状态共有Lx×Ly种,无人机在每一栅格处的可能航向有z种,每架UAV可选的控制输入有l种,则设计的Q表的行数为Lx×Ly×z,列数为l;
S3中具体采用如下方式:
S31:将碰撞代价I定义为,
式中为无人机Vi表现出的领地意识,即检测到的其他种类信息素浓度,其计算公式如下:
上式中,Hmn(k)为所有无人机在栅格(m,n)处产生的信息素总量;
S4中具体采用如下方式:
S41:不考虑禁飞区,则奖惩函数设计如下,
a为常数,影响学习过程的泛化能力且a×Jk(s(k),u(k))∈(-R,R),最大奖励为R,最大惩罚设为-R,d为UAV之间的实际距离,J(s(k),u(k))为搜索效能函数,D为最小安全距离,为保证各UAV安全飞行,需满足d≥D;
S42:当出现禁飞区时,设B为无人机距离禁飞区圆心距离,则B大于禁飞区半径D*,此时奖惩函数进一步改进如下,
即UAV发生碰撞或飞入禁飞区都将给予最大惩罚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910346512.6/1.html,转载请声明来源钻瓜专利网。