[发明专利]一种基于协同增强学习的多智能体区域搜索方法在审
申请号: | 202010710554.6 | 申请日: | 2020-07-22 |
公开(公告)号: | CN111880564A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 张瑛;肖剑;黄治宇;薛玉玺;吴磊;靳一丹;吴冰航 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 成都巾帼知识产权代理有限公司 51260 | 代理人: | 邢伟 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 增强 学习 智能 区域 搜索 方法 | ||
本发明公开了一种基于协同增强学习的多智能体区域搜索方法,包括以下步骤:S1.建立集群系统的运动模型;S2.定义γ信息地图及集群信息地图融合方式;S3.定义增强学习训练所需要的状态空间和行为空间;S4.根据状态空间和行为空间定义交互增强学习训练方法;S5.获取训练得到的Q值表,根据运动模型进行区域搜索,并根据Q值表确定下一时刻的位置。本发明实现了邻居的学习经验的共享,并且在共享的过程中,通过筛选的方式滤除无用的经验,在提高学习效率的同时,大大降低了智能体之间的通信量。
技术领域
本发明涉及多智能体区域搜索,特别是涉及一种基于协同增强学习的多智能体区域搜索方法。
背景技术
群集现象是自然界中极为常见的一种现象,随着近些年来的人工智能的兴起,智能控制领域成为了热门研究领域,并且在无人机、无人车或移动机器人等智能体方面取得了重大的进步。单智能体技术的逐渐成熟推动着智能体系统向集群化转变,Flocking集群控制算法被广泛应用于无人机搜索、侦察和打击等任务。面对日益复杂的作战环境与多任务需求。
Q-learning是一种典型的增强学习算法,它将所学习到的经验转换成Q值表,根据Q 值表可以选择最佳策略。在智能体集群的遍历过程中,通过Q-learning来对多智能体搜索系统中的γ点进行规划,并在Q-learning算法学习完成后,可得到最佳的γ点的规划策略,从而完成对目标区域的快速遍历。
由于传统的Q-learning算法是一种独立学习方法,在学习过程中不需要借鉴其邻居的历史经验,这样造成多智能体系统对同一状态行为的经验进行多次学习,大大降低了系统的学习效率。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于协同增强学习的多智能体区域搜索方法,实现了邻居的学习经验的共享,并且在共享的过程中,通过筛选的方式滤除无用的经验,在提高学习效率的同时,大大降低了智能体之间的通信量。
本发明的目的是通过以下技术方案来实现的:一种基于协同增强学习的多智能体区域搜索方法,包括以下步骤:
S1.建立集群系统的运动模型;
S2.定义γ信息地图及集群信息地图融合方式;
S3.定义增强学习训练所需要的状态空间和行为空间;
S4.根据状态空间和行为空间定义交互增强学习训练方法;
S5.获取训练得到的Q值表,根据运动模型进行区域搜索,并根据Q值表确定下一时刻的位置。
进一步地,所述步骤S1包括以下子步骤:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i 个智能体定义为agent i,其动力学模型表述成下列式子:
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度, ui为集群智能体的控制输入量;
在搜索过程中,集群每个agent的控制输入量表示为:
为集群智能体相互避撞的控制输入量,为集群智能体向期望位置移动控制量;
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
其中z为输入量,pi为集群智能体i的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010710554.6/2.html,转载请声明来源钻瓜专利网。