[发明专利]一种移动多智能体协同目标搜索方法有效

申请号：	202010362433.7	申请日：	2020-04-30
公开（公告）号：	CN111563188B	公开（公告）日：	2022-09-13
发明（设计）人：	陈志;狄小娟;岳文静;祝驭航	申请（专利权）人：	南京邮电大学
主分类号：	G06F16/903	分类号：	G06F16/903
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	彭雄
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种移动智能体协目标搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种移动多智能体协同目标搜索方法，其特征在于，包括以下步骤：

步骤1，给定目标操作域O并将其均匀地划分成相同大小的m×n个栅格区域，每一块栅格的坐标使用其所在区域的中心坐标来表示，设置N个智能体在这m×n个栅格中开始进行搜索，目标数量为S；

步骤2，获取随机的噪声函数Ψ，用θ＝{θ₁,...,θ_i,...,θ_N}表示N个智能体的策略参数，且令所有智能体的策略集合为π＝{π₁,...,π_i,...,π_N}，动作集合为a＝(a₁,...,a_i,...,a_N)，环境状态向量集合为s＝(s₁,...,s_i,...,s_N)；则根据各个智能体的Actor网络的输出，有a_i＝π_i(s_i,θ_i)；

步骤3，通过计算每个智能体的确定性策略来更新各个智能体的Actor网络及其目标网络，具体步骤如下：

步骤3.1，智能体i的目标收益为J(θ_i)＝E[R_i]，则其策略梯度公式为：

其中，R_i表示智能体i的目标收益数量总和，θ_i、a_i、π_i、s_i分别表示智能体i的策略参数、动作、策略以及观测到的状态信息，p^π表示状态分布，表示第i个智能体集中式的状态-动作函数，也就是智能体i的Critic网络对Actor网络的实时动作反馈函数；

步骤3.2，接收初始状态s，随机选择执行动作a，根据步骤3.1中的策略梯度公式进行计算判断当前选择的动作a是否为Critic当前评估最优策略，如果是则将其设置为确定性策略，用来表示，如果不是则重新选择动作再代入步骤3.1中的策略梯度公式进行计算直到获取到确定性策略

步骤4，结合DQN中TD与目标网络思想更新各个智能体的Critic网络及其目标网络，具体步骤如下：

步骤4.1，执行确定性策略简称μ_i，获取新的目标收益函数策略梯度更新公式：

其中，D＝{s,s′,a₁...a_i...a_N,r₁...r_i...r_N}是一个经验重放缓冲池，包含着所有智能体的历史经验，s′＝(s₁′,...,s_N′)表示采取动作a之前更新的状态向量，r_i表示智能体i采取动作a_i后获得的即时目标奖励值，表示采用确定性策略情况下第i个智能体集中式的状态-动作值函数；

步骤4.2，在经验缓冲池D进行采样获取表示第i个智能体集中式的状态-动作值对应经验池函数，其用到的参数是从经验池中取出的，故是采取当前最新动作之前的，属于延迟参数，所述γ是折扣因子，决定了未来奖励的重要程度，为具有延迟更新的参数θ′_i的目标策略集合，a_i'、μ_i'、s_i'分别表示智能体i延迟更新的动作、策略以及观测信息；

步骤4.3，通过最小化损失函数来更新步骤4.1中的目标收益函数策略梯度得到全局最优策略，更新规则为：

其中，r＝{r₁,...,r_i,...,r_N}表示所有智能体采取动作a后获得的即时目标奖励集合；

步骤5，获取到全局最优策略之后，各智能体独立执行搜索任务，具体步骤如下：

步骤5.1，在各智能体进行独立搜索的过程中，时刻计算各个智能体目标收益值总和值，J(μ_i)表示智能体i采取确定性策略μ_i时所获取到的最佳收益值；

步骤5.2，将步骤5.1中计算获取得到的目标收益值总和与目标数量S进行比较，若该值大于或者等于S，则表示搜索成功，否则表示搜索失败，返回步骤4重复往下进行直到搜索成功为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010362433.7/1.html，转载请声明来源钻瓜专利网。