[发明专利]基于变量消元的集中式集群侦察任务规划法有效

申请号：	201910912548.6	申请日：	2019-09-25
公开（公告）号：	CN110727291B	公开（公告）日：	2022-08-05
发明（设计）人：	王维平;周鑫;王涛;朱一凡;李小波;井田;李童心;段婷;王彦锋;黄美根	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G05D1/12	分类号：	G05D1/12
代理公司：	重庆项乾光宇专利代理事务所(普通合伙) 50244	代理人：	高姜
地址：	410000 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于变量集中集群侦察任务规划
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于变量消元的集中式集群侦察任务规划法，其特征在于，包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法，所述集中式集群侦察问题描述包含物理环境模型和无人机模型；

针对物理环境模型，物理环境的特点是由其时空特性决定的，环境的空间特性被编码为布局图，时间特性编码为离散时步，并做出如下定义：

定义1、布局图形，布局图形被定义为嵌入在欧几里得空间中一个无向图形，记为G＝(V,E)，其中，V表示空间顶点集合，E表示边集合，布局图形G中顶点的个数为|V|，在灾难响应情景中，一个点代表了人们感兴趣重要区域，比如小区、绿地和工厂等，捕获两个顶点之间可穿越的区域为边，即Agent移动的路径；

定义2、时间，时间被编码为等步长的离散时步，记为t∈{0,1,2,...}；

在每个时步中，环境信息发生一次变化，Agent完成一次观测、决策和行动，一个时步对应于的时间是由实际情景决定的，如果无人机能在10分钟内到达目标区域，并完成一次信息收集，那么一个时步可以设定为10分钟，且将感兴趣的环境信息特征为离散的信息状态，信息状态附着于布局图中的每个顶点上；

定义3、信息状态：信息状态表示了布局图中顶点的信息含量；

信息状态包含信息状态等级和信息状态值，分别定性地和定量地表示信息量，信息状态等级集合记为I＝{I₁,I₂,...,I_N}，其中I_n表示第n种信息等级，N为信息等级的数量，对应于信息状态等级，信息状态值集合记为F＝{F₁,F₂,...,F_N}，通过信息值函数建立两者的联系，F＝f(I)；且设定如果n越大，那么信息状态等级I_n具有更高的价值；因此，信息值函数是单调非递减的，即F₁≤F₂≤…≤F_N；

定义4、信息状态值函数：信息状态值函数定义为一个集合函数f:将信息值赋予信息状态等级，信息值函数编码有关环境时空特性先验已知的任何信息，例如被监测现象的类型，和现象变化的速度，该定义确保了模型的一般性，因为它可以根据环境特点而显着变化；在捕获环境的动态变化性为多状态Markov链，针对环境信息变化的条件，即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链；

针对无人机模型，做出如下定义：

定义5、信息收集Agent：信息收集Agent是无向图形G中的可移动自主实体，指导他们的活动收集信息，目的是提供准确和最新的态势感知，在任一时步t，所有Agent都在无向图形G中的某一顶点上，多个Agent能够同时占用同一个顶点；

定义6、巡逻区域：每个Agent m_i∈M在一个预先设定的区域内收集信息，记为M为所有Agent的集合、不同Agent的巡逻区域之间是可以相互重叠的；

Agent m_i在子图形G_i中的点和边上移动，其移动是原子的，也就是说，移动发生在两个前后相连的时步之间，在任意一个时步内，Agent m_i能够从某个顶点v∈V_i移动到其邻近顶点如图2所示；

定义7、邻居：针对与Agent m_i巡逻区域有交集的Agent的集合为其邻居，记为邻居Agent的行动能够影响该Agent的行为，当Agent移动到某顶点时，Agent能够自动收集该顶点的信息，收集信息的时间是忽略不计的，同时，该顶点的信息状态等级将会重置为I₁，表示没有新信息的状态；

针对所述基于MPOMDP的集中式集群侦察问题建模，将其描述为M,S,A,O,δ,Z,R,D,B；

(1)M＝{m₁,m₂,...,m_|M|}表示所有Agent的集合，其中Agent的数量记为|M|，Agent m_i∈M在其预先设定的区域内中执行任务，Agent m_i的邻居记为且设定Agentm_i也属于其邻居集合，即m_i∈Ne_i；

(2)S为联合状态集合，从不同维度看，状态可以因子分解为多个状态特征，且将状态分解为Agent的位置状态和顶点的信息状态，定义为S＝[S^V,S^I]；

(3)A＝[A₁,A₂,...,A_|M|]为联合行动集合，记为A＝_×iA_i，一个联合行动定义为a∈A，Agent m_i的行动记为a_i∈A_i，Agent mi及其邻居Agent的行动集合记为Agent m_i的行动a_i包括从当前位置v出发移动到邻居顶点的动作，且设定顶点v本身也属于其邻居

(4)O＝[O₁,O₂,...,O_|M|]为联合观测集合，记为O＝_×iO_i，其中，一个联合观测定义为o∈O，Agent m_i的观测记为o_i∈O_i，且设定所有Agent的位置状态是完全可观的，此外，Agent m_i能够观察到其当前时刻所处位置的信息状态；

(5)δ为联合状态转移概率集合，包括联合位置状态转移概率和联合信息状态转移概率，定义为

(6)Z为联合观测转移概率集合，定义为是执行动作并得到状态s_i后得到观测值o_i的概率，根据上文的描述，观测值o_i等于当前时刻的其邻居Ne_i的位置状态和Agent m_i所处位置的信息状态

(7)R为可分解全局回报函数，全局回报函数等于所有Agent回报之和，记为为Agent m_i在状态s_i下执行所得的回报值；

(8)D表示规划步长；

(9)B表示信念，是设计最优策略的充分统计量，包括位置状态信念和信息状态信念，记为B＝[B^V,B^I]，位置状态是完全可观的，因此主要聚焦于信息状态信念，即所有顶点的信息状态是独立变化的，顶点的信息状态信念能够被因式分解更为简洁的信念表示；

所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法，进一步的对基于变量消元的在线动态规划算法进行剔除，且每个Agent选择其行动Agent的目标是计算最优策略π＝[π₁,π₂,...,π_|M|]以最大化全局值函数B_i(h_i)；

针对在线规划算法，将全局前瞻树分解为多个局部前瞻树，每个Agent都拥有一个局部前瞻树，对于松耦合的多Agent系统，该分解将极大减少前瞻树的分支数，能够将蒙特卡洛树推广至更大规模Agent的MPOMDP，此外，在决定行动时等待邻居Agent并协同行动，以便得到全局最优策；

针对集中式集群协作算法，计算最大化R＝Σ_iR_i的动作很棘手，因为需要枚举所有Agent的联合行动空间，其中通过合作图和利用R_i函数中的局部结构，可以非常有效地计算具有有限通信和可观察性的Agent的最优行动，且每个Agent m_i都有一个局部回报函数局部回报函数Q_i受到Agent的行动及其邻居Agent行动的影响。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910912548.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种轻型无人直升机的航电系统方法及构架
下一篇：一种舞台三维动态环系统运动的控制方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于变量消元的集中式集群侦察任务规划法有效

专利文献下载