[发明专利]多智能体合作决策方法、系统、计算机设备和存储介质在审
申请号: | 202310316342.3 | 申请日: | 2023-03-29 |
公开(公告)号: | CN116050467A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘超雄;温睦宁;林润基;杨耀东;张海峰;温颖;张伟楠 | 申请(专利权)人: | 上海数字大脑科技研究院有限公司 |
主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/092 |
代理公司: | 上海港慧专利代理事务所(普通合伙) 31402 | 代理人: | 郭嘉莹 |
地址: | 201306 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 合作 决策 方法 系统 计算机 设备 存储 介质 | ||
本发明提供了一种多智能体合作决策方法,包括:获取多智能体观测信息序列;将所述多智能体观测信息序列输入多智能体序列编解码模型,所述多智能体序列编解码模型基于所述多智能体观测信息序列以及已有的前置智能体的动作信息输出联合动作;其中,所述多智能体序列编解码模型基于编码器和解码器架构,并利用注意力机制建模多智能体之间的联系,并通过自回归的动作产生方式实现联合动作产生过程中的单调优化;基于所述联合动作控制所述多智能体运动进行合作决策。可避免异构智能体之间策略冲突的风险,解决大规模智能体场景下训练速度缓慢的问题,保证在同/异构场景下的样本效率,同时对任务间智能体数量与类型的改变具有良好的泛化能力。
技术领域
本申请涉及多智能体控制技术领域,特别是涉及一种多智能体合作决策方法、系统、计算机设备和存储介质。
背景技术
一个多智能体系统(multi-agent system)包含多个智能体,它们分别控制一个环境中的不同单位;同时,每个智能体根据它在环境中观测到的信息做出决策并改变环境与其他智能体所处的状态。在多智能体合作决策的过程中,所有智能体之间目标一致,执行动作之后所获的的回报相同(团队回报)。而针对合作任务的多智能体强化学习旨在设计并训练出一系列基于神经网络的智能体,这些智能体能够充分考虑当前环境的观测信息以及智能体之间的联系,使不同智能体产生的动作能够互相配合,最大化整个团队的回报。多智能体强化学习在现实中有着非常重要的应用场景(例如:工业或军事领域中的自动驾驶车辆、无人机或智能机器人的集群控制,游戏领域中的智能NPC等等),但由于智能体之间的相互影响,多智能体强化学习当前的核心挑战在于如何让每个智能体学会与其他智能体互相配合,从而最大化团队回报而非最大化智能体的个体回报。
当前国际上针对合作的任务的主流多智能体强化学习算法均由单智能体近端策略优化算法(proximal policy optimization,PPO)扩展而来,并遵循“集中式训练,分布式执行(centralized training, decentralized execution)”范式。作为代表的主要有多智能体近端策略优化[2](multi-agent proximal policy optimization,MAPPO)与异构智能体近端策略优化[3](heterogeneous-agent proximal policy optimization,HAPPO)两种最先进的算法。
多智能体近端策略优化与异构智能体近端策略优化虽然能让智能体们学会一定程度的合作,但分别潜在着策略冲突风险、训练速度缓慢、样本效率低下等缺点。
综上所述,多智能体强化学习亟需要一种能够兼容同构/异构智能体、充分借鉴不同智能体的数据与经验、且支持并行训练的新算法,以提升智能体在多种应用场景之中的可用性与性能表现。
发明内容
本发明实施例提供了一种多智能体合作决策方法、系统、计算机设备和存储介质,以解决相关技术中策略冲突、训练速度缓慢、样本效率低下的问题。
在一个实施例中,本发明提供了一种多智能体合作决策方法,包括:获取多智能体观测信息序列;将所述多智能体观测信息序列输入多智能体序列编解码模型,所述多智能体序列编解码模型基于所述多智能体观测信息序列输出联合动作;其中,所述多智能体序列编解码模型基于编码器-解码器架构,并利用注意力机制建模多智能体之间的联系,并通过自回归的动作产生方式实现联合动作产生过程中的单调优化;基于所述联合动作控制所述多智能体运动进行合作决策。
在一个实施例中,本发明提供了多智能体合作决策系统,包括:获取模块,用于获取多智能体观测信息序列;决策模块,用于将所述多智能体观测信息序列输入多智能体序列编解码模型,并使得所述多智能体序列编解码模型基于所述多智能体观测信息序列输出联合动作;其中,所述多智能体序列编解码模型基于编码器-解码器架构,并利用注意力机制建模多智能体之间的联系,并通过自回归的动作产生方式实现联合动作产生过程中的单调优化;控制模块,用于基于所述联合动作控制多智能体运动进行合作决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数字大脑科技研究院有限公司,未经上海数字大脑科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310316342.3/2.html,转载请声明来源钻瓜专利网。