[发明专利]多智能体合作决策方法、系统、计算机设备和存储介质在审

申请号：	202310316342.3	申请日：	2023-03-29
公开（公告）号：	CN116050467A	公开（公告）日：	2023-05-02
发明（设计）人：	刘超雄;温睦宁;林润基;杨耀东;张海峰;温颖;张伟楠	申请（专利权）人：	上海数字大脑科技研究院有限公司
主分类号：	G06N3/0455	分类号：	G06N3/0455;G06N3/092
代理公司：	上海港慧专利代理事务所(普通合伙) 31402	代理人：	郭嘉莹
地址：	201306 上海市浦东新区中国（上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能合作决策方法系统计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种多智能体合作决策方法，包括：获取多智能体观测信息序列；将所述多智能体观测信息序列输入多智能体序列编解码模型，所述多智能体序列编解码模型基于所述多智能体观测信息序列以及已有的前置智能体的动作信息输出联合动作；其中，所述多智能体序列编解码模型基于编码器和解码器架构，并利用注意力机制建模多智能体之间的联系，并通过自回归的动作产生方式实现联合动作产生过程中的单调优化；基于所述联合动作控制所述多智能体运动进行合作决策。可避免异构智能体之间策略冲突的风险，解决大规模智能体场景下训练速度缓慢的问题，保证在同/异构场景下的样本效率，同时对任务间智能体数量与类型的改变具有良好的泛化能力。

技术领域

本申请涉及多智能体控制技术领域，特别是涉及一种多智能体合作决策方法、系统、计算机设备和存储介质。

背景技术

一个多智能体系统（multi-agent system）包含多个智能体，它们分别控制一个环境中的不同单位；同时，每个智能体根据它在环境中观测到的信息做出决策并改变环境与其他智能体所处的状态。在多智能体合作决策的过程中，所有智能体之间目标一致，执行动作之后所获的的回报相同（团队回报）。而针对合作任务的多智能体强化学习旨在设计并训练出一系列基于神经网络的智能体，这些智能体能够充分考虑当前环境的观测信息以及智能体之间的联系，使不同智能体产生的动作能够互相配合，最大化整个团队的回报。多智能体强化学习在现实中有着非常重要的应用场景（例如：工业或军事领域中的自动驾驶车辆、无人机或智能机器人的集群控制，游戏领域中的智能NPC等等），但由于智能体之间的相互影响，多智能体强化学习当前的核心挑战在于如何让每个智能体学会与其他智能体互相配合，从而最大化团队回报而非最大化智能体的个体回报。

当前国际上针对合作的任务的主流多智能体强化学习算法均由单智能体近端策略优化算法（proximal policy optimization，PPO）扩展而来，并遵循“集中式训练，分布式执行（centralized training, decentralized execution）”范式。作为代表的主要有多智能体近端策略优化[2]（multi-agent proximal policy optimization，MAPPO）与异构智能体近端策略优化[3]（heterogeneous-agent proximal policy optimization，HAPPO）两种最先进的算法。

多智能体近端策略优化与异构智能体近端策略优化虽然能让智能体们学会一定程度的合作，但分别潜在着策略冲突风险、训练速度缓慢、样本效率低下等缺点。

综上所述，多智能体强化学习亟需要一种能够兼容同构/异构智能体、充分借鉴不同智能体的数据与经验、且支持并行训练的新算法，以提升智能体在多种应用场景之中的可用性与性能表现。

发明内容

本发明实施例提供了一种多智能体合作决策方法、系统、计算机设备和存储介质，以解决相关技术中策略冲突、训练速度缓慢、样本效率低下的问题。

在一个实施例中，本发明提供了一种多智能体合作决策方法，包括：获取多智能体观测信息序列；将所述多智能体观测信息序列输入多智能体序列编解码模型，所述多智能体序列编解码模型基于所述多智能体观测信息序列输出联合动作；其中，所述多智能体序列编解码模型基于编码器-解码器架构，并利用注意力机制建模多智能体之间的联系，并通过自回归的动作产生方式实现联合动作产生过程中的单调优化；基于所述联合动作控制所述多智能体运动进行合作决策。

在一个实施例中，本发明提供了多智能体合作决策系统，包括：获取模块，用于获取多智能体观测信息序列；决策模块，用于将所述多智能体观测信息序列输入多智能体序列编解码模型，并使得所述多智能体序列编解码模型基于所述多智能体观测信息序列输出联合动作；其中，所述多智能体序列编解码模型基于编码器-解码器架构，并利用注意力机制建模多智能体之间的联系，并通过自回归的动作产生方式实现联合动作产生过程中的单调优化；控制模块，用于基于所述联合动作控制多智能体运动进行合作决策。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海数字大脑科技研究院有限公司，未经上海数字大脑科技研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310316342.3/2.html，转载请声明来源钻瓜专利网。

上一篇：终端切换系统、方法、电子设备及存储介质
下一篇：一种水下大型潜航器水面观测系统及观测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多智能体合作决策方法、系统、计算机设备和存储介质在审

专利文献下载