[发明专利]一种基于深度强化学习的多智能体协作模型有效
申请号: | 202110930777.8 | 申请日: | 2021-08-13 |
公开(公告)号: | CN113592101B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 邹启杰;蒋亚军;高兵;秦静;李丹;李文雪 | 申请(专利权)人: | 大连大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 体协 模型 | ||
1.一种基于深度强化学习的多智能体协作模型,包括集中式的Critic网络、分散式的多个Actor网络、其特征在于,还包括Q值分解网络,每个所述Actor网络与环境交互产生状态-动作信息存入经验缓冲区中,Critic网络从所述经验缓冲区中采样,将所有状态-动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot;Q值分解网络将所述全局动作价值Qtot分解为基于单个智能体的动作价值Qi,每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Qi。
2.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,所述Actor网络的梯度更新方式为:
其中,E为期望值,τ表示观测历史,a表示动作历史,D表示经验缓冲区,θi表示智能体i的策略,oi表示智能体i的局部观测,ai表示智能体i的动作;πi(ai|oi)表示当前观测状态下的动作。
3.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,为得到全局动作价值Qtot,将初始单个智能体的动作价值Qi'进行累加,得到一个累加和,由于该累加和并非真实的Qtot,因此引入一个差值b(s)来弥补累加和与真实全局动作价值Qtot之间的差距,从而得到近似的全局动作价Q′tot;即当协作多智能体系统处于状态s时,令:
其中:
b(s)是当前最优联合动作的全局动作价值Qtot与累加和的差值,和分别为全局和局部最优动作;通过此方式,近似得到了在当前最优联合动作序列下单个智能体的动作价值Qi与近似的全局动作价值Q′tot的关系。
4.根据权利要求1所述一种基于深度强化学习的多智能体协作模型,其特征在于,为使所述Critic网络学习出的最优联合动作序列等价于局部最优动作集合,需要满足IGM原则,因此优化目标是使得:成立,即保证最优联合动作序列的选择与局部最优动作集合中元素一致;也就是说,在当前状态s下学到的全局动作价值Qtot最大时的动作序列和单个智能体的动作价值Qi下的动作集合组成保持一致,即:
如果满足上式,要建立全局动作价值Qtot和单个智能体的动作价值Qi的关系;因此,需使近似得到的Q′tot和Critic网络学到的真实Qtot相等,即:
Q′tot(o,a)=Qtot(o,a)
由于近似的全局动作价值Q′tot为通过单个智能体的动作价值Qi近似得到的,通过公式建立的约束关系,等价于真实全局动作价值Qtot和单个智能体的动作价值Qi的关系,即:
将全局动作价值Qtot分解为单个智能体的动作价值Qi,保证了最优联合动作与局部最优动作集合的一致性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110930777.8/1.html,转载请声明来源钻瓜专利网。