[发明专利]多智能体行动策略学习方法、装置、介质和计算设备在审

申请号：	202010072011.6	申请日：	2020-01-21
公开（公告）号：	CN111309880A	公开（公告）日：	2020-06-19
发明（设计）人：	黄民烈;高信龙一	申请（专利权）人：	清华大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06N3/04;G06N3/08
代理公司：	北京志霖恒远知识产权代理事务所(普通合伙) 11435	代理人：	韩雪梅
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明的实施方式提供了一种多智能体行动策略学习方法，包括：所述多智能体分别根据各自的初始行动策略采样相应的动作；分别估计所述多智能体执行相应动作后获得的优势；基于所述多智能体执行相应动作后获得的优势更新各智能体的行动策略，以使更新后的各个行动策略能够使得相应的智能体获得更高的回报。本发明的方法在面向任务处理的机器学习场景中，同时训练互相协作的多个智能体(即同时训练多个行动策略)，而不是采用预先构建的模拟器和智能体进行交互，且无需人工监督，极大的节省了时间成本和资源，另外，为了使得各个智能体都能学习到优异的行动策略，对每个智能体分配不同的奖励，使得多智能体能够学习更加优异的行动策略。
搜索关键词：	智能行动策略学习方法装置介质计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202010072011.6/，转载请声明来源钻瓜专利网。

上一篇：一种对象存储小文件处理方法、装置、设备及存储介质
下一篇：一种信息推送、显示方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多智能体行动策略学习方法、装置、介质和计算设备在审

专利文献下载