[发明专利]基于注意力机制的多智能体值函数分解方法及装置在审
申请号: | 202010824845.8 | 申请日: | 2020-08-17 |
公开(公告)号: | CN112101564A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 杨以钦;马骁腾;李承昊;杨君;梁斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 白雪静 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 智能 函数 分解 方法 装置 | ||
本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,该方法包括:获取多个智能体决策下的状态轨迹;构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。
技术领域
本发明涉及机器学习技术领域,特别涉及一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置。
背景技术
最近几年,强化学习在很多领域取得重大突破,例如围棋、星际争霸、Dota2等大规模策略优化问题。与目前流行的大多数单智能体强化学习算法不同,真实世界常常是多个智能体在动态变化的环境中相互竞争或合作的,因此智能体需要在适应多智能体环境的同时,学习与环境中其它智能体的交互。在多智能体控制算法中,值函数设计的环节具有十分关键的地位。由于值函数是一条样本轨道的奖励之和,因此有效的值函数设计可以加速多智能体学习。
目前基于值函数的多智能体算法主要有三类:独立值函数,中心值函数,分解值函数。其中,独立值函数学习算法将多个智能体单独训练,并最大化自己的值函数,是最简单的值函数学习算法。但是由于单个智能体的环境是动态非平稳的,因此这种方法违背了强化学习的基本假设。相较而言,中心值函数在计算单个智能体的状态动作值函数时考虑了其它智能体的动作,并在连续动作控制场景下超越了其它传统多智能体算法的性能,这种算法具有更强的鲁棒性。然而,由于多智能体合作环境为多人博弈场景,中心值函数的设计忽略了单个值函数的性质,其在复杂合作场景下性能欠佳。
将多个智能体的中心值函数进行分解是目前多智能体值函数学习的主流算法,具有代表性的算法为QMIX算法,该算法在基于全局状态信息的条件下,将各个智能体的值函数融合,并保证总体值函数相对于单个智能体的值函数是单调的。这种算法在复杂离散动作控制场景下取得了突出的效果。现实世界中多个智能体之间是相互影响的,在合作场景下多智能体间的Q值相对于总体值函数应当是单调的,而QMIX算法只考虑总体值函数相对于单个智能体的值函数的单调性,忽略了多智能体间Q值信息,缺乏一些探索性和合作性。同时,QMIX算法仅适用于离散动作控制的环境,而现实中的大多数多智能体环境是连续动作控制的。因此,如何将多智能体间的Q值与单个智能体的Q值有效结合,并应用在连续动作控制下的多智能体环境中具有一定的挑战性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解方法,该方法设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
本发明的另一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解装置。
为达到上述目的,本发明一方面实施例提出了一种连续动作控制下基于注意力机制的多智能体值函数分解方法,包括以下步骤:步骤S1:获取多个智能体决策下的状态轨迹;步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824845.8/2.html,转载请声明来源钻瓜专利网。