[发明专利]一种基于深度强化学习的多智能体协作模型有效

专利信息
申请号: 202110930777.8 申请日: 2021-08-13
公开(公告)号: CN113592101B 公开(公告)日: 2023-10-17
发明(设计)人: 邹启杰;蒋亚军;高兵;秦静;李丹;李文雪 申请(专利权)人: 大连大学
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 大连智高专利事务所(特殊普通合伙) 21235 代理人: 毕进
地址: 116622 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 智能 体协 模型
【权利要求书】:

1.一种基于深度强化学习的多智能体协作模型,包括集中式的Critic网络、分散式的多个Actor网络、其特征在于,还包括Q值分解网络,每个所述Actor网络与环境交互产生状态-动作信息存入经验缓冲区中,Critic网络从所述经验缓冲区中采样,将所有状态-动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot;Q值分解网络将所述全局动作价值Qtot分解为基于单个智能体的动作价值Qi,每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Qi

2.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,所述Actor网络的梯度更新方式为:

其中,E为期望值,τ表示观测历史,a表示动作历史,D表示经验缓冲区,θi表示智能体i的策略,oi表示智能体i的局部观测,ai表示智能体i的动作;πi(ai|oi)表示当前观测状态下的动作。

3.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,为得到全局动作价值Qtot,将初始单个智能体的动作价值Qi'进行累加,得到一个累加和,由于该累加和并非真实的Qtot,因此引入一个差值b(s)来弥补累加和与真实全局动作价值Qtot之间的差距,从而得到近似的全局动作价Q′tot;即当协作多智能体系统处于状态s时,令:

其中:

b(s)是当前最优联合动作的全局动作价值Qtot与累加和的差值,和分别为全局和局部最优动作;通过此方式,近似得到了在当前最优联合动作序列下单个智能体的动作价值Qi与近似的全局动作价值Q′tot的关系。

4.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,为使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合,需要满足IGM原则,因此优化目标是使得:成立,即保证最优联合动作序列的选择与局部最优动作集合中元素一致;也就是说,在当前状态s下学到的全局动作价值Qtot最大时的动作序列和单个智能体的动作价值Qi下的动作集合组成保持一致,即:

如果满足上式,要建立全局动作价值Qtot和单个智能体的动作价值Qi的关系;因此,需使近似得到的Q′tot和Critic网络学到的真实Qtot相等,即:

Q′tot(o,a)=Qtot(o,a)

由于近似的全局动作价值Q′tot为通过单个智能体的动作价值Qi近似得到的,通过公式建立的约束关系,等价于真实全局动作价值Qtot和单个智能体的动作价值Qi的关系,即:

将全局动作价值Qtot分解为单个智能体的动作价值Qi,保证了最优联合动作与局部最优动作集合的一致性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110930777.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top