[发明专利]一种基于多智能体深度强化学习的多机探寻方法及系统有效
申请号: | 202310044962.6 | 申请日: | 2023-01-30 |
公开(公告)号: | CN115860107B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 肖晓晖;张涵;张晓晖 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/084;G06N3/10;G06N3/045;G06N3/0464;G06N3/044;G06N3/008;G06N7/01;G06V10/94;G06V10/82;G06V20/50 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 龚雅静 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 深度 强化 学习 探寻 方法 系统 | ||
1.一种基于多智能体深度强化学习的多机探寻方法,其特征在于,包括以下步骤:
步骤1、搭建机器人集群仿真平台,包括虚拟目标场景的设计、虚拟障碍物的布置以及对虚拟机器人集群的设计与组合,虚拟机器人集群包括N个虚拟机器人;
步骤2、将机器人集群探寻任务建模为分布式部分可观测马尔可夫决策过程;
步骤3、获取虚拟机器人集群完成探寻任务的轨迹信息,并储存在经验回放缓存中;
步骤4、针对虚拟机器人集群搭建图像特征提取网络、值估计网络和值分解网络,其中,值分解网络使用多头注意力机制估计全局状态价值;
特征提取网络共有两个且均使用卷积神经网络提取特征,其一用于提取系统状态特征,输入为时刻的系统状态,输出为时刻的系统状态特征图;其二用于提取虚拟机器人观测特征,输入为时刻第个虚拟机器人的观测,输出为时刻第个虚拟机器人的观测特征图;
值估计网络针对每个虚拟机器人分别搭建,使用循环神经网络估计虚拟机器人的状态价值,其输入为序列长度为的第个虚拟机器人的观测特征图序列,输出为序列长度为的值估计网络对第个虚拟机器人的状态价值函数的估计值序列,其中,为时刻第个虚拟机器人的估计值且大小与相等的图,为起始时刻,;
值分解网络使用多头注意力机制估计全局状态价值,其输入为时刻的系统状态特征图、时刻的虚拟机器人集群的观测特征图与时刻的联合动作集对应的估计值集合,为时刻虚拟机器人集群的观测,为时刻第个虚拟机器人选择的动作,输出为时刻的全局状态价值函数的估计值;
步骤5、基于多智能体深度强化学习进行迭代优化,训练图像特征提取网络、值估计网络和值分解网络的网络参数,得到最佳网络参数;
步骤501、对特征提取网络和及分别对应的目标网络和、值估计网络及其目标网络和值分解网络及其目标网络进行参数初始化,并确定每次训练的批量大小、序列长度、目标网络更新时间和总体训练时长;
步骤502、随机初始化场景环境,获取时刻的系统状态和虚拟机器人观测,由值估计网络生成时刻第个虚拟机器人的估计值,然后选取每个虚拟机器人的估计值最大值在动作空间中所对应的动作的集合,作为采取的时刻虚拟机器人集群选择的联合动作集,与环境交互后得到时刻的奖励与时刻的系统状态和虚拟机器人的观测,重复步骤502直到得到个序列长度为的序列,并储存在经验回放缓存中;
步骤503、在经验回放缓存中随机采样批量大小为的序列,通过特征提取网络和提取出系统状态特征图序列和虚拟机器人的观测特征图序列,为时刻的系统状态,为时刻第个虚拟机器人的观测,,为起始时刻;
步骤504、将虚拟机器人的观测特征图序列输入值估计网络,计算出估计值序列,其中,为时刻第个虚拟机器人的估计值,,为系统状态,为第个虚拟机器人的动作序列与观测序列组成的动作观测历史,其表达形式为,表示了第个虚拟机器人在时刻采取了动作后,获取到时刻的观测,以此类推直到虚拟机器人在时刻采取了动作后,获取到时刻的观测;
步骤505、将时刻的虚拟机器人集群的估计值和系统状态特征图输入值分解网络,计算时刻的全局估计值:其中,为与时刻的系统状态特征相关的常数,为多头注意力机制的头数,为多头注意力机制中来自不同头部的值分配权重,为值分解网络对第个虚拟机器人的值估计网络进行分解时第阶的系数,均由生成,其中,为第阶的微元;
步骤506、计算损失函数:
其中,为批量大小,为特征提取网络、值估计网络及值分解网络组成的整体函数,为网络参数,为目标网络参数,为折扣系数,与为第条序列中时刻与时刻虚拟机器人集群选择的联合动作集,与为第条序列中时刻与时刻的系统状态,与为第条序列中时刻与时刻为虚拟机器人集群的动作观测历史;
步骤507、进行梯度下降,根据损失函数计算的值调整更新网络参数,当训练步长到达的整数倍时,将目标网络的参数与当前网络同步;
步骤508、重复步骤502至步骤507,直到训练步长到达总体训练时长;
步骤6、在仿真平台上,将虚拟目标场景与虚拟机器人集群结合后进行组合训练,进而部署于真实目标场景和真实机器人集群中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310044962.6/1.html,转载请声明来源钻瓜专利网。