[发明专利]一种基于协同增强学习的多智能体区域搜索方法在审

申请号：	202010710554.6	申请日：	2020-07-22
公开（公告）号：	CN111880564A	公开（公告）日：	2020-11-03
发明（设计）人：	张瑛;肖剑;黄治宇;薛玉玺;吴磊;靳一丹;吴冰航	申请（专利权）人：	电子科技大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	成都巾帼知识产权代理有限公司 51260	代理人：	邢伟
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于协同增强学习智能区域搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于协同增强学习的多智能体区域搜索方法，包括以下步骤：S1.建立集群系统的运动模型；S2.定义γ信息地图及集群信息地图融合方式；S3.定义增强学习训练所需要的状态空间和行为空间；S4.根据状态空间和行为空间定义交互增强学习训练方法；S5.获取训练得到的Q值表，根据运动模型进行区域搜索，并根据Q值表确定下一时刻的位置。本发明实现了邻居的学习经验的共享，并且在共享的过程中，通过筛选的方式滤除无用的经验，在提高学习效率的同时，大大降低了智能体之间的通信量。

技术领域

本发明涉及多智能体区域搜索，特别是涉及一种基于协同增强学习的多智能体区域搜索方法。

背景技术

群集现象是自然界中极为常见的一种现象，随着近些年来的人工智能的兴起，智能控制领域成为了热门研究领域，并且在无人机、无人车或移动机器人等智能体方面取得了重大的进步。单智能体技术的逐渐成熟推动着智能体系统向集群化转变，Flocking集群控制算法被广泛应用于无人机搜索、侦察和打击等任务。面对日益复杂的作战环境与多任务需求。

Q-learning是一种典型的增强学习算法，它将所学习到的经验转换成Q值表，根据Q 值表可以选择最佳策略。在智能体集群的遍历过程中，通过Q-learning来对多智能体搜索系统中的γ点进行规划，并在Q-learning算法学习完成后，可得到最佳的γ点的规划策略，从而完成对目标区域的快速遍历。

由于传统的Q-learning算法是一种独立学习方法，在学习过程中不需要借鉴其邻居的历史经验，这样造成多智能体系统对同一状态行为的经验进行多次学习，大大降低了系统的学习效率。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于协同增强学习的多智能体区域搜索方法，实现了邻居的学习经验的共享，并且在共享的过程中，通过筛选的方式滤除无用的经验，在提高学习效率的同时，大大降低了智能体之间的通信量。

本发明的目的是通过以下技术方案来实现的：一种基于协同增强学习的多智能体区域搜索方法，包括以下步骤：

S1.建立集群系统的运动模型；

S2.定义γ信息地图及集群信息地图融合方式；

S3.定义增强学习训练所需要的状态空间和行为空间；

S4.根据状态空间和行为空间定义交互增强学习训练方法；

S5.获取训练得到的Q值表，根据运动模型进行区域搜索，并根据Q值表确定下一时刻的位置。

进一步地，所述步骤S1包括以下子步骤：

基于Flocking集群控制算法，假设集群V中包含p个智能体，V＝{1,2....p}，集群中第i 个智能体定义为agent i，其动力学模型表述成下列式子：