[发明专利]一种基于多智能体深度强化学习的多机探寻方法及系统有效

申请号：	202310044962.6	申请日：	2023-01-30
公开（公告）号：	CN115860107B	公开（公告）日：	2023-05-16
发明（设计）人：	肖晓晖;张涵;张晓晖	申请（专利权）人：	武汉大学
主分类号：	G06N3/092	分类号：	G06N3/092;G06N3/084;G06N3/10;G06N3/045;G06N3/0464;G06N3/044;G06N3/008;G06N7/01;G06V10/94;G06V10/82;G06V20/50
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	龚雅静
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能深度强化学习探寻方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于多智能体深度强化学习的多机探寻方法及系统，包括搭建机器人集群仿真平台，将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程，获取虚拟机器人集群完成探寻任务的轨迹信息并储存在经验回放缓存中，针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络，基于多智能体深度强化学习进行迭代优化，得到最佳参数，在仿真平台上将虚拟目标场景与虚拟机器人集群结合后进行组合训练，便于部署真实目标场景和真实机器人集群，本发明能够在训练时获取全局的信息进行集中式学习，使得机器人可以学习到集体行为，大大提升了工作效率，且不容易出现目标冲突、互相干扰等问题。

技术领域

本发明涉及机器人技术领域，尤其涉及一种基于多智能体深度强化学习的多机探寻方法及系统。

背景技术

近年来，机器人技术在外界感知、运动控制、定位导航等方面的研究受到了广泛的关注。其中，机器人集群作为群体智能的代表，因其可以集体地、自发地组织行为完成任务，在个人、社会等层面都具有广阔的应用前景。

但是，由于多机探寻任务中机器人的部分可观测性和机器人之间通信的约束，以及随着机器人数量增加带来的决策空间的指数型扩大和场景的复杂度增加，机器人集群的协同决策面临着巨大的挑战。

使用传统强化学习的多机探寻方法将每个机器人作为单独的个体，忽略了机器人之间的交互作用，使得完成集群任务时经常出现目标冲突、互相干扰等问题，大大降低了工作效率。对于过大的决策空间和复杂的场景，使用传统深度强化学习的方法也容易出现无法收敛到最优解的问题，使得机器人集群在完成任务时，效率大大降低。

发明内容

根据现有技术的不足，本发明的目的是提供一种基于多智能体深度强化学习的多机探寻方法及系统，能够在训练时获取全局的信息进行集中式学习，使得机器人可以学习到集体行为，大大提升了工作效率，且不容易出现目标冲突、互相干扰等问题。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于多智能体深度强化学习的多机探寻方法，包括以下步骤：

一种基于多智能体深度强化学习的多机探寻方法，包括以下步骤：

步骤1、搭建机器人集群仿真平台，包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合，虚拟机器人集群包括N个虚拟机器人；

步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程；

步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息，并储存在经验回放缓存中；

步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络，其中，值分解网络使用多头注意力机制估计全局状态价值；

步骤5、基于多智能体深度强化学习进行迭代优化，训练图像特征提取网络、值估计网络和值分解网络的网络参数，得到最佳网络参数；

步骤6、在仿真平台上，将虚拟目标场景与虚拟机器人集群结合后进行组合训练，进而部署于真实目标场景和真实机器人集群中。

进一步地，在所述的步骤2中，分布式部分可观测马尔可夫决策过程为：

其中，为虚拟机器人个数，为状态空间，为动作空间，为时刻第个虚拟机器人选择的动作，，为时刻虚拟机器人集群选择的联合动作集，，为时刻的系统状态，为时刻的系统状态，为下选择后转移到的状态转移概率函数，为下选择的奖励函数，为观测空间，为第个虚拟机器人的观测，，为第个虚拟机器人选择后在下虚拟机器人观测到的条件观测概率，为折扣系数。

进一步地，在所述的步骤3中，虚拟机器人集群完成探索与搜寻任务的一条轨迹信息包含：

，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310044962.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种捆绑式四级伸缩油缸用组合加工设备
下一篇：一种胰腺炎腹腔脓肿穿刺定位装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多智能体深度强化学习的多机探寻方法及系统有效

专利文献下载