[发明专利]一种基于势博弈的多无人机协同搜索方法有效
申请号: | 201610143227.0 | 申请日: | 2016-03-14 |
公开(公告)号: | CN105700555B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 段海滨;李沛 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12;G05B13/04 |
代理公司: | 北京慧泉知识产权代理有限公司11232 | 代理人: | 王顺荣,唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于势博弈的多无人机协同搜索方法,其实施步骤为步骤一多无人机协同搜索问题建模;步骤二多无人机协调运动的势博弈建模和双对数‑线性学习法势博弈求解;步骤三根据传感器探测信息更新概率图,对更新后的概率图进行信息融合,获取目标存在概率;步骤四根据目标存在概率更新不确定度,并进行多无人机协同搜索。本发明能实现多无人机协同搜索,包含基于势博弈的协调运动、概率图更新、信息融合等过程,由于自身分布式的控制方式,方法计算简单,具有较强的鲁棒性,能有效应对外界干扰。 | ||
搜索关键词: | 一种 基于 博弈 无人机 协同 搜索 方法 | ||
【主权项】:
一种基于势博弈的多无人机协同搜索方法,其特征在于,该方法的步骤如下:步骤一:多无人机协同搜索问题建模用n架无人机对一个连续的任务区域进行搜索,记为V={v1,v2,...,vn};表示实数域;每架无人机作为独立的决策者采用分布式策略对任务区域进行探索,将连续的任务区域平均分配为M=Lx×Ly个单元,其中,Lx,Ly表示任务区域横向、纵向分配的份数,M表示划分的单元的个数;每个单元用其中心位置g=[x,y]T等价代替;其中,x,y表示横、纵坐标的位置,T为数学符号转置;无人机vi在时刻t对其覆盖范围内的基本单元进行一次独立的测量,测量结果为Zi,g,t,其中μi,t表示无人机vi在时刻t的位置,Rsi表示无人机传感器的探测范围;若其中心位置位于之内,则某一单元g内的信息被无人机vi检测到;在时刻t,无人机vi执行一次测量,观测结果表示如下,Zi,g,t=1,if|g-μi,t|≤Rsi0,otherwise.---(1)]]>此外,将正确率和误警率分别定义为P(Zi,g,t=1|θg=1)=pc和P(Zi,g,t=1|θg=0)=pf,并假设这两个参数已知,且在整个任务执行过程中保持不变,其中θg表示目标存在于单元g中的概率;对于多无人机网络的通信拓扑,将其建模为一个动态图Gt=(εt,vt),该动态图中vt为顶点集合,表示为vt={1,2,...,N},εt为连接边集合,表示为εt={{i,j}:i,j∈v;||μi,t‑μj,t||≤RCi},其中μi,t和μj,t表示两个不同无人机vi和vj在时刻t的位置,RCi为无人机的通信范围;无人机vi在时刻t的邻居集合表示为Ni,t={j∈v|{i,j}∈εt}∪{i},为表征方便,设该无人机本身属于其邻居集合;无人机vi在时刻t的度记为di,t=|Ni,t|,表示它将自身位置信息和传感器信息传递给邻居个体的能力;步骤二:多无人机协调运动的势博弈建模和双对数‑线性学习法势博弈求解2.1多无人机协调运动的势博弈建模将多无人机协调运动建模成势博弈的过程中,包括三方面的要素:博弈参与者、参与者行动集及效用函数;博弈参与者即为参与搜索过程的n架无人机,需要考虑的为行动集和效用函数的设计;博弈参与者行动集Ai的设计:它定义了博弈参与者可选择的全部行为,其中的元素被称为行动,是参与者在博弈过程中的决策变量;无人机的搜索效率取决于其传感器性能以及其所在的位置,将某一博弈者的行动集定义为在任务区域内它所能选择的位置,Ai={g|g∈Ω},无人机vi的行动表示为ai∈Ai,整个无人机群体的集体行动表示为a=(a1,a2,...,an),称作行动组合;设a(t‑1)为无人机vi在时刻t‑1的行动组合,则根据无人机运动特性以及障碍物等行动约束,将时刻t行动集简化为上一时刻行动集的函数,受限的行动集,记为对于博弈者任一行动ai∈Ai,有ai∈Ci(ai),即无人机被允许停留在上一时刻的位置;在无人机被布置到任务器搜集信息时,密度函数η:用来记录无人机对任务区域内目标时间发生概率的了解程度;表示正的实数集;由于信号衰减,传感器性能随着目标单元与无人机位置之间的几何距离增大而降低,因此用非减可微函数f(||q‑pi||):对传感器的信号强度进行量化分析,q∈Ω为任务区域中单元格的位置,pi为无人机vi的位置;无人机的性能用概率密度函数和信号衰减综合表示如下:Φ(a)=Φ(p1,p2,...,pn)=∫Ωf(mini∈{1,2,...n}||q-pi||)η(q)dq---(2)]]>其中f(||q-pi||)=||q-pi||||q-pi||≤RSi0otherwise]]>式中η(q)为密度函数,RSi为无人机vi的传感距离;博弈参与者效用函数Ui(ai,a‑i)的设计:无人机vi的效用函数设计为整体效用的边际贡献值,记做Ui(ai,a-i)=∫Ωf(mini∈{1,2,...,n}||q-pi||)η(q)dq-∫Ωf(mini∈{1,2,...,i-1,i+1,...,n}||q-pi||)η(q)dq.---(3)]]>根据势函数的定义,按照式(3)设计效用函数,构成的博弈为势博弈,满足势博弈的相关性质,能利用各种学习算法保证其最优性和收敛性;2.2双对数‑线性学习法的势博弈求解采用双对数‑线性学习法对问题进行求解,减少无人机计算资源的负担,有利于多无人机的实时运动控制;在双对数‑线性学习法中,首先按异步时间模型以相同的概率随机选择一架无人机vi∈V改变其位置;与此同时,其他无人机保持之前的行动不变a‑i(t)=a‑i(t‑1);选择出的无人机从其受限行动集Ci(ai(t‑1))中选出尝试动作以改变其位置P(a^i=ai)=1/zi,∀ai∈Ci(ai(t-1))/ai(t-1)---(4)]]>P(a^i=ai(t-1))=1-(|Ci(ai(t-1))|-1)/zi---(5)]]>其中zi表示无人机vi在受限行动集中行动的最大个数,表示为无人机vi在选择出尝试动作后,在时刻t按照策略pi(t)∈Δ(Ai)来更新其动作,博弈者策略pi(t)定义如下:piai(t-1)(t)=e1τUi(a(t-1))e1τUi(a(t-1))+e1τUi(a^i,a-i(t-1))---(6)]]>pia^i(t)=e1τUi(a^i,a-i(t-1))e1τUi(a(t-1))+e1τUi(a^i,a-i(t-1))---(7)]]>式中Ui(a(t‑1))和分别是无人机当前行动的效用以及按照选定尝试动作改变后的假想效用;式中参数τ定义了噪声的强度,即无人机作决策时在多大程度上会选择次优动作;当τ→0时,无人机会以概率1选择a‑i(t‑1)的最佳应对动作;注意,当时,时,对于无人机vi∈V和其行动集中的任一对动作可达性表示存在一系列的行动对所有的t∈{1,2,...,m}满足对于无人机vi∈V和其行动集中的任一对动作表示其可逆性;对于构造成效用函数为式(2)的势博弈的多无人机协调运动问题,如果博弈者遵循双对数‑线性学习法,并且其受限行动集满足可达性和可逆性,则无人机在t→∞,τ→0时将移动到最大化其覆盖性能的位置;步骤三:根据传感器探测信息更新概率图,对更新后的概率图进行信息融合,获取目标存在概率3.1根据传感器探测信息更新概率图首先根据先验知识建立表征各无人机对任务区域的理解程度的概率图,然后通过贝叶斯规则和在运动过程中获得的信息对概率图进行更新,具体步骤如下;在搜索过程中,每架无人机vi保存一个它对任务区域所有基础单元的概率图Pi,g,t,表示在时刻t目标存在于单元g中的概率,θg=1和θg=0分别表示目标是否存在于单元g;无人机vi根据传感器观测信息Bi,t更新其概率图,公式如下Pi,g,t=P(θg=1|Bi,t). (8)目标存在于单元g在无人机vi在时刻t观测值为Zi,g,t时的条件概率P(θg=1|Zi,g,t)按照贝叶斯公式表示为P(θg=1|Zi,g,t)=P(Zi,g,t|θg=1)P(θg=1)P(Zi,g,t)---(9)]]>其中P(θg=1)为目标存在于单元g中的先验概率;将无人机vi在前一时刻t‑1对于目标存在于单元g的概率估计Pi,g,t‑1作为先验概率,结合对于g在时刻t的观测Zi,g,t,式(9)变为Pi,g,t=P(Zi,g,t|θg=1)Pi,g,t-1P(Zi,g,t)---(10)]]>根据贝叶斯公式上式的分母表示为P(Zi,g,t)=P(Zi,g,t|θg=1)P(θg=1)+P(Zi,g,t|θg=0)P(θg=0),其中P(Zi,g,t|θg=1)和P(Zi,g,t|θg=0)为正确检测率和误警率,为建模部分中的pc和pf;将式(10)代入式(9)中,概率图更新规则表示如下,Pi,g,t=P(θg=1|Zi,g,t)=P(Zi,g,t|θg=1)P(θg=1)P(Zi,g,t|θg=1)P(θg=1)+P(Zi,g,t|θg=0)P(θg=0)=pcPi,g,t-1pcPi,g,t-1+pf(1-Pi,g,t-1)ifZi,g,t=1(1-pc)Pi,g,t-1(1-pc)Pi,g,t-1+(1-pf)(1-Pi,g,t-1)ifZi,g,t=0Pi,g,t-1otherwise.---(11)]]>在0<pc<1和0<pf<1时,为了简化运算,设Qi,g,t=Δln(1Pi,g,t-1)---(12)]]>则概率更新规则变换为Qi,g,t=Qi,g,t-1+lnpfpcifZi,g,t=1Qi,g,t-1+ln1-pf1-pcifZi,g,t=0Qi,g,t-1otherwise.---(13)]]>这样,对于Pi,g,t∈(0,1),Pi,g,t和Qi,g,t存在一对一映射,实现从Qi,g,t恢复Pi,g,t;3.2对更新后的概率图进行信息融合,获取目标存在概率在步骤三中“根据传感器探测信息更新概率图”部分,无人机vi利用传感器探测到的新息对上一时刻t‑1的概率图Hi,g,t进行更新;每架无人机将更新后的概率图传输给它当前的邻居,邻居由通信距离和各自的位置决定;然后,利用线性组合的方式对自身更新的概率图和通信获取的邻居概率图进行融合,如下式Qi,g,t=ωi,i,tHi,g,t-1+Σj∈Ni(t)ωi,j,tHj,g,t-1---(14)]]>其中ωi,j,t是无人机vi概率图Qj,g,t‑1的权重;将不是无人机vi邻居个体的权重设为ωi,j,t=0,上式写成如下的形式;Qi,g,t=Σj=1Nωi,j,tHj,g,t---(15)]]>这里Wt=(ωi,j)采用著名的Metropolis权重矩阵,表示为ωi,i,t=11+max{di(t),dj(t)}if{i,j}∈ϵ(t)1-Σ{i,k}∈ϵ(t)ωi,k,t(t)ifi=j0otherwise---(16)]]>其中di(t),dj(t)表示节点i和j的度,在实际配置中,将Wt∈Rn×n存储成稀疏矩阵的形式,减少所需存储空间;若无人机网络连通,则Wt为遍历性双随机矩阵,使各概率图渐进稳定到平均一致性;该权重矩阵适用于分布式配置,无人机无需了解无人机网络的通信拓扑等全局信息,甚至不需要参与整个任务的无人机数目;对于式(15)定义的分布式信息估计过程,如果执行任务的无人机网络通信拓扑满足以下两个条件之一,则能够保证渐进收敛到概率图初始状态的平均值:或者无人机的通信网络为连通图;或者无人机的通信网络为存在独立通信失败的连通图;步骤四:根据目标存在概率更新不确定度,并进行多无人机协同搜索通过与邻居通信进行信息融合,得到估计值||Qi,j,k||,该值用来刻画无人机vi对于任务区域Ω单元g的不确定度;||Qi,j,k||越大,无人机vi的不确定值越小,反之亦然;而搜索问题构造成了一个具有受限行动集的势博弈,并利用双对数线性学习方法进行协调运动;因此,利用||Qi,j,k||构造势博弈效用函数中的密度函数η(q),形式如下:ηi,g,k=Δe-kη||Qi,g,k||---(17)]]>其中kη为正的增益参数,ηi,g,k表示无人机vi在时刻k对于单元g的不确定度值;协同搜索问题被分解为三个连续的部分:协调运动、传感器观测和信息融合更新;开始更新前,每个无人机初始化一个概率图,该图存储着每个单元中目标存在的概率;随后无人机根据步骤二中建立的势博弈模型进行协调运动,以优化整体的搜索性能;当到达新的位置之后,无人机利用传感器对覆盖范围内的单元进行探测;随后,结合探测到的数据,无人机根据步骤三对各自的概率图进行更新,并通过与邻居个体进行通信进行信息融合;重复步骤二和步骤三,直至各单元的不确定度降低到设定的阈值之下,此时搜索任务完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610143227.0/,转载请声明来源钻瓜专利网。