[发明专利]一种基于深度强化学习的多智能体协作模型有效
申请号: | 202110930777.8 | 申请日: | 2021-08-13 |
公开(公告)号: | CN113592101B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 邹启杰;蒋亚军;高兵;秦静;李丹;李文雪 | 申请(专利权)人: | 大连大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 体协 模型 | ||
本发明公开了一种基于深度强化学习的多智能体协作模型,包括集中式的Critic网络、分散式的多个Actor网络、Q值分解网络,每个所述Actor网络与环境交互产生状态‑动作信息存入经验缓冲区中,Critic网络从所述经验缓冲区中采样,将所有状态‑动作信息作为输入,以协作多智能体系统的任务为目标设计全局奖励R,采用TD误差的方式学习得到一个全局动作价值Qtot;Q值分解网络将所述全局动作价值Qtot分解为基于单个智能体的动作价值Qi,每个Actor网络的梯度更新依赖分解后对应的单个智能体的动作价值Qi。本发明保证了全局最优动作与局部最优动作的一致性,从而提高多智能体在连续动作空间的探索效率。
技术领域
本发明涉及多智能体强化学习技术领域,具体涉及一种基于深度强化学习的多智能体协作模型。
背景技术
MAS是由多个智能体与环境交互组成的分布式决策系统。上世纪70年代以来,MAS展开了众多的研究,其目的就在于建立一个拥有特定的自主等级和自主学习能力的群体智能系统。MAS信息共享、分布式计算和协同执行的特点在现实生活中有着十分广泛的应用需求,尤其军事、工业、交通运输等众多领域。在决策优化问题中,强化学习展现出巨大的在线学习优势,并且更加契合生物群体的学习机制。伴随AlphaGo引领的强化学习热潮,MARL成为广大多智能体系统MAS研究者重点关注的领域,极大推动MARL模型各个层面的不断进步。
目前主流的MARL模型研究中,主要的工作分为两大类:价值分解和Actor-Critic的方法。在已有的两类MARL方法中,尽管价值分解的方法在性能上略优于Actor-Critic方法,但在对抗环境非平稳问题上缺乏优势。采用集中式的Critic网络可以将全局的动作和状态信息作为输入,很好的处理环境非平稳。然而,在已有Actor-Critic结构的MARL方法中,由于集中式的Critic结构和Agent数量增加带来的信度分配等问题,使得全局Q值对于分散的Agent策略梯度指导效率低下,Agent在团队中的贡献无法得到表达,因而收敛效率变得缓慢。另外,协作多Agent中全局最优动作组合与Agent最优动作的一致性无法保证,全局贪婪动作的选择无法与局部最优动作相匹配。这些问题使得MARL方法收敛效率和稳定性无法提升。因此,协作多Agent系统中采用集中式的Critic网络在信度分配问题和动作选择一致性问题上缺乏较优的解决方案。
现有技术中公开号为CN112364984A,名称为一种协作多智能体强化学习方法的专利申请,需要全局动作状态信息输入到奖励高速路网络,然而在动态变化的现实环境中,智能体无法得到足够多的、有效的奖励,即智能体得到的是稀疏奖励,进而导致智能体学习缓慢甚至无法进行有效学习。公开号为CN112232478A,名称为一种基于分层注意力机制的多智能体强化学习方法及系统的专利申请,尽管引入分层注意力机制降低了维度空间,然而在其他智能体状态-动作空间信息输入的处理过程中,无法准确求解其他智能体对智能体团队的影响。OpenAI在文献《Multi-agent actor-critic for mixed cooperative-competitive environments》中提出MADDPG算法,为每个智能体学习一个独立的Critic网络,尽管可以适应协作、竞争和混合环境,然而对于任务的奖励机制需要单独设计;另外,尽管MADDPG实现了连续动作空间中高效的off-policy学习,却没能解决完全合作的环境中信用分配问题。牛津大学在文献《Counterfactual Multi-Agent policy gradients》中提出COMA方法,如图1所示,设计反事实Baseline,来评估智能体在团队联合动作中的贡献问题,然而,默认动作的计算需要消耗大量的计算资源,因此在实际效果上并不理想。
发明内容
针对现有多智能体强化学习方法效率低、收敛速度慢和稳定性差等问题,本申请提供一种基于深度强化学习的多智能体协作模型,其保证了全局最优动作与局部最优动作的一致性,从而提高多智能体在连续动作空间的探索效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110930777.8/2.html,转载请声明来源钻瓜专利网。