[发明专利]一种基于状态动态感知的多智能体合作学习方法有效

申请号：	201910162280.9	申请日：	2019-03-05
公开（公告）号：	CN109978176B	公开（公告）日：	2021-01-19
发明（设计）人：	王桂鸿;史景伦;邓丽;张宇	申请（专利权）人：	华南理工大学
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于状态动态感知的多智能体合作学习方法，通过自主训练获得协调完成任务目标的多智能体控制系统，步骤如下：对各个智能体分别进行状态编码；对每个智能体构建一个动态感知层对其状态集合进行处理，将动态长度的状态集合映射成固定长度的特征；每个智能体的特征输入到各自带有通信单元的Q值网络，从网络输出中选取具有最大Q值的动作作为决策动作；各智能体将动作执行于环境，从环境中获取反馈奖励后，对所有智能体的动态感知层参数和Q值网络参数进行更新；使用上述框架训练多智能体，获得多智能体合作控制系统。本发明适用于要求动态数量游戏角色合作完成任务的游戏系统中，可作为游戏中多智能体的人工智能系统。
搜索关键词：	一种基于状态动态感知智能合作学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于状态动态感知的多智能体合作学习方法，其特征在于，所述的多智能体合作学习方法包括以下步骤：S1、对各个智能体分别进行状态编码，使每一个智能体形成具有动态长度的状态集合；S2、对每个智能体，构建一个动态感知层对其状态集合进行处理，将动态长度的状态集合映射成为固定长度的特征；S3、每个智能体的特征输入到各自带有通信单元的Q值网络，从Q值网络输出中选取具有最大Q值的动作作为决策动作；S4、各智能体将动作执行于环境，从环境中获取反馈奖励后，对所有智能体的动态感知层参数和Q值网络参数进行更新；S5、使用上述框架训练多智能体，从而获得具有完成既定任务目标的多智能体合作控制系统。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910162280.9/，转载请声明来源钻瓜专利网。

上一篇：用于机器学习模型的并行化坐标下降法
下一篇：模型训练方法、业务处理方法、装置及相关设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于状态动态感知的多智能体合作学习方法有效

专利文献下载