[发明专利]一种基于协同增强学习的多智能体区域搜索方法在审
申请号: | 202010710554.6 | 申请日: | 2020-07-22 |
公开(公告)号: | CN111880564A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 张瑛;肖剑;黄治宇;薛玉玺;吴磊;靳一丹;吴冰航 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 成都巾帼知识产权代理有限公司 51260 | 代理人: | 邢伟 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 增强 学习 智能 区域 搜索 方法 | ||
1.一种基于协同增强学习的多智能体区域搜索方法,其特征在于:包括以下步骤:
S1.建立集群系统的运动模型;
S2.定义γ信息地图及集群信息地图融合方式;
S3.定义增强学习训练所需要的状态空间和行为空间;
S4.根据状态空间和行为空间定义交互增强学习训练方法;
S5.获取训练得到的Q值表,根据运动模型进行区域搜索,并根据Q值表确定下一时刻的位置。
2.根据权利要求1所述的一种基于协同增强学习的多智能体区域搜索方法,其特征在于:所述步骤S1包括以下子步骤:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在搜索过程中,集群每个agent的控制输入量表示为:
为集群智能体相互避撞的控制输入量,为集群智能体向期望位置移动控制量;
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
其中z为输入量,pi为集群智能体i的位置;
dα=||d||σ
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
其中,h,l为常数函数的设计保证了势场函数的平滑,为了保证范数,微定义σ范数:
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
式中,为PID算法中的比例与微分控制参数,vi为agent i的速度,pγ为agent i下一时刻的期望位置。
3.根据权利要求1所述的一种基于协同增强学习的多智能体区域搜索方法,其特征在于:所述步骤S2包括以下子步骤:
假设遍历区域为m×n的矩形区域,将待搜索区域量化为k*l个矩阵的γ-信息地图,每一个量化后的矩阵对应为一个γ点,将区域的完整搜索转换为信息地图中γ点的完全遍历,这些γ点构成了agent i的一个γ信息地图集合
mi(γ)={γx,y},x=1,2....k,y=1,2....l;
其中k和l由下式获取:
rs为自定义参数,表示agent i的感知半径;
获取集群中所有智能体的γ信息地图{m1(γx,y),m2(γx,y)......mp(γx,y)},若agenti遍历γ点时,则该γ点的信息mi(γx,y)=1,否则mi(γx,y)=0;agent 1、agent2......agent p建立通信,融合自身γ信息地图与其邻居的γ信息地图,融合公式如下:
其中mi(γx,y):是智能体i的信γ息地图,ms(γx,y)是集群的所有γ信息地图,V是集群智能体的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010710554.6/1.html,转载请声明来源钻瓜专利网。