[发明专利]多智能体行动策略学习方法、装置、介质和计算设备在审
申请号: | 202010072011.6 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111309880A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 黄民烈;高信龙一 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 韩雪梅 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的实施方式提供了一种多智能体行动策略学习方法,包括:所述多智能体分别根据各自的初始行动策略采样相应的动作;分别估计所述多智能体执行相应动作后获得的优势;基于所述多智能体执行相应动作后获得的优势更新各智能体的行动策略,以使更新后的各个行动策略能够使得相应的智能体获得更高的回报。本发明的方法在面向任务处理的机器学习场景中,同时训练互相协作的多个智能体(即同时训练多个行动策略),而不是采用预先构建的模拟器和智能体进行交互,且无需人工监督,极大的节省了时间成本和资源,另外,为了使得各个智能体都能学习到优异的行动策略,对每个智能体分配不同的奖励,使得多智能体能够学习更加优异的行动策略。 | ||
搜索关键词: | 智能 行动 策略 学习方法 装置 介质 计算 设备 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010072011.6/,转载请声明来源钻瓜专利网。