[发明专利]多智能体合作决策方法、系统、计算机设备和存储介质在审

申请号：	202310316342.3	申请日：	2023-03-29
公开（公告）号：	CN116050467A	公开（公告）日：	2023-05-02
发明（设计）人：	刘超雄;温睦宁;林润基;杨耀东;张海峰;温颖;张伟楠	申请（专利权）人：	上海数字大脑科技研究院有限公司
主分类号：	G06N3/0455	分类号：	G06N3/0455;G06N3/092
代理公司：	上海港慧专利代理事务所(普通合伙) 31402	代理人：	郭嘉莹
地址：	201306 上海市浦东新区中国（上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能合作决策方法系统计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多智能体合作决策方法，其特征在于，所述方法包括：

获取多智能体观测信息序列；

将所述多智能体观测信息序列输入多智能体序列编解码模型，所述多智能体序列编解码模型基于所述多智能体观测信息序列以及已有的前置智能体的动作信息输出联合动作；其中，所述多智能体序列编解码模型基于编码器和解码器架构，并利用注意力机制建模多智能体之间的联系，并通过自回归的动作产生方式实现联合动作产生过程中的单调优化；

基于所述联合动作控制多智能体集群运动进行合作决策。

2.根据权利要求1所述的方法，其特征在于，所述多智能体序列编解码模型包括：多智能体观测信息编码器和自回归动作解码器；

其中，所述多智能体观测信息编码器包括多个编码块，每个所述编码块由基于注意力机制的注意力块和多层感知器组成；

所述自回归动作解码器包括多个解码块，每个解码块由基于注意力机制的注意力块和多层感知器组成；

所述编码块与所述解码块的内部各部件之间均通过残差网络相连。

3.根据权利要求2所述的方法，其特征在于，所述多智能体序列编解码模型基于所述多智能体观测信息序列以及已有的前置智能体的动作信息输出联合动作包括：

将所述多智能体观测信息序列输入多智能体观测信息编码器进行编码，得到对应的多智能体观测表征向量序列；其中，所述多智能体观测信息序列被表示为：；所述多智能体观测表征向量序列被表示为：；所述多智能体观测表征向量序列编码了所对应智能体的观测信息和智能体之间的相互关系；

将所述多智能体观测表征向量序列和前置智能体的动作信息输入所述自回归动作解码器，用以解码每个智能体的动作，得到多智能体状态-前置动作联合表征序列；所述多智能体状态-前置动作联合表征序列被表示为：；

根据所述多智能体状态-前置动作联合表征序列推理出所述联合动作；所述联合动作被表示为：。

4.根据权利要求3所述的方法，其特征在于，所述将所述多智能体观测信息序列输入所述多智能体观测信息编码器进行编码，得到对应的多智能体观测表征向量序列，包括：

将所述多智能体观测信息序列交给任意数量个编码块处理；其中，每个编码块包括一个注意力块和一个多层感知器；

所述编码块中的所述注意力块对输入的所述多智能体观测信息序列进行自乘得到第一注意力矩阵；并使用所述第一注意力矩阵乘以输入的所述多智能体观测信息序列，以将所述第一注意力矩阵中的每一行作为线性组合权重对输入的所述多智能体观测信息序列做线性组合，后通过所述多层感知器将所述注意力块的输出表征映射至指定的隐层维度，得到一个编码后的多智能体观测表征向量序列；其中所述多智能体观测表征向量序列中的每一观测表征向量均由所有观测信息加权求和得到。

5.根据权利要求3所述的方法，其特征在于，所述将所述多智能体观测表征向量序列和前置智能体的动作信息输入所述自回归动作解码器，用以解码每个智能体的动作，得到多智能体状态-前置动作联合表征序列，包括：

将前置智能体的动作信息进行序列化得到多智能体前置动作序列，并输入至所述自回归动作解码器；所述多智能体前置动作序列被表示为：；

所述自回归动作解码器将所述多智能体前置动作序列映射至多智能体前置动作表征向量序列；所述多智能体前置动作表征向量序列被表示为：；

将所述多智能体前置动作表征向量序列与所述多智能体观测表征向量序列相结合得到所述多智能体状态-前置动作联合表征序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海数字大脑科技研究院有限公司，未经上海数字大脑科技研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310316342.3/1.html，转载请声明来源钻瓜专利网。

上一篇：终端切换系统、方法、电子设备及存储介质
下一篇：一种水下大型潜航器水面观测系统及观测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多智能体合作决策方法、系统、计算机设备和存储介质在审

专利文献下载