[发明专利]多智能体行动策略学习方法、装置、介质和计算设备在审

申请号：	202010072011.6	申请日：	2020-01-21
公开（公告）号：	CN111309880A	公开（公告）日：	2020-06-19
发明（设计）人：	黄民烈;高信龙一	申请（专利权）人：	清华大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06N3/04;G06N3/08
代理公司：	北京志霖恒远知识产权代理事务所(普通合伙) 11435	代理人：	韩雪梅
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能行动策略学习方法装置介质计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明的实施方式提供了一种多智能体行动策略学习方法，包括：所述多智能体分别根据各自的初始行动策略采样相应的动作；分别估计所述多智能体执行相应动作后获得的优势；基于所述多智能体执行相应动作后获得的优势更新各智能体的行动策略，以使更新后的各个行动策略能够使得相应的智能体获得更高的回报。本发明的方法在面向任务处理的机器学习场景中，同时训练互相协作的多个智能体(即同时训练多个行动策略)，而不是采用预先构建的模拟器和智能体进行交互，且无需人工监督，极大的节省了时间成本和资源，另外，为了使得各个智能体都能学习到优异的行动策略，对每个智能体分配不同的奖励，使得多智能体能够学习更加优异的行动策略。

技术领域

本发明的实施方式涉及强化学习领域，更具体地，本发明的实施方式涉及一种多智能体行动策略学习方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

行动策略决定了智能体应采取的下一步操作，在面向任务的系统中起着至关重要的作用。近些年来，策略学习已被广泛地认为属于强化学习(RL)问题。由于RL需要大量的交互来进行策略训练，然而直接与真实用户进行交互费时费力。最常见的方法是开发一个用户模拟器帮助训练以促进目标智能体学习行动策略。

但是，设计可靠的用户模拟器并不是一件容易的事，并且常常具有挑战性，因为它等同于构建一个好的智能体。随着对智能体处理更复杂任务的需求的不断增长，构建一个完全基于规则的用户模拟器将是一项艰巨而艰巨的工作，并且需要大量的领域专业知识。

发明内容

在本上下文中，本发明的实施方式期望提供一种多智能体行动策略学习方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种多智能体行动策略学习方法，包括：

所述多智能体分别根据各自的初始行动策略采样相应的动作；

分别估计所述多智能体执行相应动作后获得的优势；

基于所述多智能体执行相应动作后获得的优势更新各智能体的行动策略，以使更新后的各个行动策略能够使得相应的智能体获得更高的回报。