[发明专利]基于变量消元的集中式集群侦察任务规划法有效
申请号: | 201910912548.6 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110727291B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 王维平;周鑫;王涛;朱一凡;李小波;井田;李童心;段婷;王彦锋;黄美根 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 重庆项乾光宇专利代理事务所(普通合伙) 50244 | 代理人: | 高姜 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 变量 集中 集群 侦察 任务 规划 | ||
1.基于变量消元的集中式集群侦察任务规划法,其特征在于,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法,所述集中式集群侦察问题描述包含物理环境模型和无人机模型;
针对物理环境模型,物理环境的特点是由其时空特性决定的,环境的空间特性被编码为布局图,时间特性编码为离散时步,并做出如下定义:
定义1、布局图形,布局图形被定义为嵌入在欧几里得空间中一个无向图形,记为G=(V,E),其中,V表示空间顶点集合,E表示边集合,布局图形G中顶点的个数为|V|,在灾难响应情景中,一个点代表了人们感兴趣重要区域,比如小区、绿地和工厂等,捕获两个顶点之间可穿越的区域为边,即Agent移动的路径;
定义2、时间,时间被编码为等步长的离散时步,记为t∈{0,1,2,...};
在每个时步中,环境信息发生一次变化,Agent完成一次观测、决策和行动,一个时步对应于的时间是由实际情景决定的,如果无人机能在10分钟内到达目标区域,并完成一次信息收集,那么一个时步可以设定为10分钟,且将感兴趣的环境信息特征为离散的信息状态,信息状态附着于布局图中的每个顶点上;
定义3、信息状态:信息状态表示了布局图中顶点的信息含量;
信息状态包含信息状态等级和信息状态值,分别定性地和定量地表示信息量,信息状态等级集合记为I={I1,I2,...,IN},其中In表示第n种信息等级,N为信息等级的数量,对应于信息状态等级,信息状态值集合记为F={F1,F2,...,FN},通过信息值函数建立两者的联系,F=f(I);且设定如果n越大,那么信息状态等级In具有更高的价值;因此,信息值函数是单调非递减的,即F1≤F2≤…≤FN;
定义4、信息状态值函数:信息状态值函数定义为一个集合函数f:将信息值赋予信息状态等级,信息值函数编码有关环境时空特性先验已知的任何信息,例如被监测现象的类型,和现象变化的速度,该定义确保了模型的一般性,因为它可以根据环境特点而显着变化;在捕获环境的动态变化性为多状态Markov链,针对环境信息变化的条件,即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链;
针对无人机模型,做出如下定义:
定义5、信息收集Agent:信息收集Agent是无向图形G中的可移动自主实体,指导他们的活动收集信息,目的是提供准确和最新的态势感知,在任一时步t,所有Agent都在无向图形G中的某一顶点上,多个Agent能够同时占用同一个顶点;
定义6、巡逻区域:每个Agent mi∈M在一个预先设定的区域内收集信息,记为M为所有Agent的集合、不同Agent的巡逻区域之间是可以相互重叠的;
Agent mi在子图形Gi中的点和边上移动,其移动是原子的,也就是说,移动发生在两个前后相连的时步之间,在任意一个时步内,Agent mi能够从某个顶点v∈Vi移动到其邻近顶点如图2所示;
定义7、邻居:针对与Agent mi巡逻区域有交集的Agent的集合为其邻居,记为邻居Agent的行动能够影响该Agent的行为,当Agent移动到某顶点时,Agent能够自动收集该顶点的信息,收集信息的时间是忽略不计的,同时,该顶点的信息状态等级将会重置为I1,表示没有新信息的状态;
针对所述基于MPOMDP的集中式集群侦察问题建模,将其描述为M,S,A,O,δ,Z,R,D,B;
(1)M={m1,m2,...,m|M|}表示所有Agent的集合,其中Agent的数量记为|M|,Agent mi∈M在其预先设定的区域内中执行任务,Agent mi的邻居记为且设定Agentmi也属于其邻居集合,即mi∈Nei;
(2)S为联合状态集合,从不同维度看,状态可以因子分解为多个状态特征,且将状态分解为Agent的位置状态和顶点的信息状态,定义为S=[SV,SI];
(3)A=[A1,A2,...,A|M|]为联合行动集合,记为A=×iAi,一个联合行动定义为a∈A,Agent mi的行动记为ai∈Ai,Agent mi及其邻居Agent的行动集合记为Agent mi的行动ai包括从当前位置v出发移动到邻居顶点的动作,且设定顶点v本身也属于其邻居
(4)O=[O1,O2,...,O|M|]为联合观测集合,记为O=×iOi,其中,一个联合观测定义为o∈O,Agent mi的观测记为oi∈Oi,且设定所有Agent的位置状态是完全可观的,此外,Agent mi能够观察到其当前时刻所处位置的信息状态;
(5)δ为联合状态转移概率集合,包括联合位置状态转移概率和联合信息状态转移概率,定义为
(6)Z为联合观测转移概率集合,定义为是执行动作并得到状态si后得到观测值oi的概率,根据上文的描述,观测值oi等于当前时刻的其邻居Nei的位置状态和Agent mi所处位置的信息状态
(7)R为可分解全局回报函数,全局回报函数等于所有Agent回报之和,记为为Agent mi在状态si下执行所得的回报值;
(8)D表示规划步长;
(9)B表示信念,是设计最优策略的充分统计量,包括位置状态信念和信息状态信念,记为B=[BV,BI],位置状态是完全可观的,因此主要聚焦于信息状态信念,即所有顶点的信息状态是独立变化的,顶点的信息状态信念能够被因式分解更为简洁的信念表示;
所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法,进一步的对基于变量消元的在线动态规划算法进行剔除,且每个Agent选择其行动Agent的目标是计算最优策略π=[π1,π2,...,π|M|]以最大化全局值函数Bi(hi);
针对在线规划算法,将全局前瞻树分解为多个局部前瞻树,每个Agent都拥有一个局部前瞻树,对于松耦合的多Agent系统,该分解将极大减少前瞻树的分支数,能够将蒙特卡洛树推广至更大规模Agent的MPOMDP,此外,在决定行动时等待邻居Agent并协同行动,以便得到全局最优策;
针对集中式集群协作算法,计算最大化R=ΣiRi的动作很棘手,因为需要枚举所有Agent的联合行动空间,其中通过合作图和利用Ri函数中的局部结构,可以非常有效地计算具有有限通信和可观察性的Agent的最优行动,且每个Agent mi都有一个局部回报函数局部回报函数Qi受到Agent的行动及其邻居Agent行动的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910912548.6/1.html,转载请声明来源钻瓜专利网。