[发明专利]多智能体合作决策方法、系统、计算机设备和存储介质在审
申请号: | 202310316342.3 | 申请日: | 2023-03-29 |
公开(公告)号: | CN116050467A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘超雄;温睦宁;林润基;杨耀东;张海峰;温颖;张伟楠 | 申请(专利权)人: | 上海数字大脑科技研究院有限公司 |
主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/092 |
代理公司: | 上海港慧专利代理事务所(普通合伙) 31402 | 代理人: | 郭嘉莹 |
地址: | 201306 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 合作 决策 方法 系统 计算机 设备 存储 介质 | ||
1.一种多智能体合作决策方法,其特征在于,所述方法包括:
获取多智能体观测信息序列;
将所述多智能体观测信息序列输入多智能体序列编解码模型,所述多智能体序列编解码模型基于所述多智能体观测信息序列以及已有的前置智能体的动作信息输出联合动作;其中,所述多智能体序列编解码模型基于编码器和解码器架构,并利用注意力机制建模多智能体之间的联系,并通过自回归的动作产生方式实现联合动作产生过程中的单调优化;
基于所述联合动作控制多智能体集群运动进行合作决策。
2.根据权利要求1所述的方法,其特征在于,所述多智能体序列编解码模型包括:多智能体观测信息编码器和自回归动作解码器;
其中,所述多智能体观测信息编码器包括多个编码块,每个所述编码块由基于注意力机制的注意力块和多层感知器组成;
所述自回归动作解码器包括多个解码块,每个解码块由基于注意力机制的注意力块和多层感知器组成;
所述编码块与所述解码块的内部各部件之间均通过残差网络相连。
3.根据权利要求2所述的方法,其特征在于,所述多智能体序列编解码模型基于所述多智能体观测信息序列以及已有的前置智能体的动作信息输出联合动作包括:
将所述多智能体观测信息序列输入多智能体观测信息编码器进行编码,得到对应的多智能体观测表征向量序列;其中,所述多智能体观测信息序列被表示为:;所述多智能体观测表征向量序列被表示为:;所述多智能体观测表征向量序列编码了所对应智能体的观测信息和智能体之间的相互关系;
将所述多智能体观测表征向量序列和前置智能体的动作信息输入所述自回归动作解码器,用以解码每个智能体的动作,得到多智能体状态-前置动作联合表征序列;所述多智能体状态-前置动作联合表征序列被表示为:;
根据所述多智能体状态-前置动作联合表征序列推理出所述联合动作;所述联合动作被表示为:。
4.根据权利要求3所述的方法,其特征在于,所述将所述多智能体观测信息序列输入所述多智能体观测信息编码器进行编码,得到对应的多智能体观测表征向量序列,包括:
将所述多智能体观测信息序列交给任意数量个编码块处理;其中,每个编码块包括一个注意力块和一个多层感知器;
所述编码块中的所述注意力块对输入的所述多智能体观测信息序列进行自乘得到第一注意力矩阵;并使用所述第一注意力矩阵乘以输入的所述多智能体观测信息序列,以将所述第一注意力矩阵中的每一行作为线性组合权重对输入的所述多智能体观测信息序列做线性组合,后通过所述多层感知器将所述注意力块的输出表征映射至指定的隐层维度,得到一个编码后的多智能体观测表征向量序列;其中所述多智能体观测表征向量序列中的每一观测表征向量均由所有观测信息加权求和得到。
5.根据权利要求3所述的方法,其特征在于,所述将所述多智能体观测表征向量序列和前置智能体的动作信息输入所述自回归动作解码器,用以解码每个智能体的动作,得到多智能体状态-前置动作联合表征序列,包括:
将前置智能体的动作信息进行序列化得到多智能体前置动作序列,并输入至所述自回归动作解码器;所述多智能体前置动作序列被表示为:;
所述自回归动作解码器将所述多智能体前置动作序列映射至多智能体前置动作表征向量序列;所述多智能体前置动作表征向量序列被表示为:;
将所述多智能体前置动作表征向量序列与所述多智能体观测表征向量序列相结合得到所述多智能体状态-前置动作联合表征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数字大脑科技研究院有限公司,未经上海数字大脑科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310316342.3/1.html,转载请声明来源钻瓜专利网。