[发明专利]用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法在审

申请号：	202210508557.0	申请日：	2022-05-11
公开（公告）号：	CN114626499A	公开（公告）日：	2022-06-14
发明（设计）人：	吴超;罗双;李皓;王永恒	申请（专利权）人：	之江实验室;浙江大学
主分类号：	G06N3/00	分类号：	G06N3/00;G06N20/00
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310023 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	稀疏注意力辅助决策嵌入式智能强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法，属于强化学习技术领域。初始化多智能体的效用函数网络参数、混合网络参数和目标混合网络参数；获取每一个智能体的自注意力输出和稀疏化注意力输出；使用门控循环单元模块编码当前观测输出，计算本地常规效用函数和本地稀疏效用函数，分别输入到混合网络中，各自拟合得到常规全局价值函数和稀疏全局价值函数，逐渐降低常规全局价值函数的权重，完成强化学习的训练。在决策推理阶段，各个智能体根据本地观测和自身效用函数来选择动作输出给环境，从而与环境进行交互。本发明可以嵌入到任何基于价值函数的MARL框架中，提升智能体决策的效率和精度。

技术领域

本发明属于强化学习技术领域，尤其涉及一种用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法。

背景技术

多智能体强化学习（MARL）为多个智能体共同解决复杂的顺序决策问题提供了一个框架，并且在机器人博弈、交通信号灯控制、自动驾驶等领域有着非常广泛的应用。目前MARL中智能体间的关系可以分为完全合作型、完全竞争型和非完全合作非完全竞争型。

目前主流的MARL训练框架是采用集中式训练分布式执行（CTDE）框架，在集中训练阶段中，智能体的决策模型可以访问全局状态信息以帮助其更好的探索不同的策略，但是在推理阶段中，智能体仅仅根据自己的局部观测进行决策。CTDE框架执行的原则是个体-全局-最大值原则（IGM），其保证了个体决策最优与全局决策最优之间的一致性，智能体可以通过最大化个体的效用函数从而使得整体团队获得最优的全局回报。因此在合作型MARL中，提升个体的效用函数会使得整体受益。

现有的基于价值函数的方法主要是VDN、QMIX、QPLEX等。VDN将智能体本地效用函数进行求和来获取全局价值函数。由于直接求和的方式使得表达因子分解能力较差，QMIX对VDN进行了改进，通过混合网络对智能体本地效用函数进行非线性聚合，在保持个体和全局单调性约束的前提下，根据全局状态信息生成权重。随后QPLEX引入基于优势函数的方法，将本地效用函数Q拆解为状态价值函数V和单独的动作价值函数A，从而减小状态对决策的影响，更加关注不同动作带来的收益。上述基于价值函数的方法主要存在以下问题：

（1）改进主要是关于如何将智能体本地的效用函数聚合成全局价值函数，没有关注对智能体本身网络结构的改进。由于随着MARL环境中智能体数目的增多，联合动作空间逐渐增大，导致智能体的探索更加困难。

（2）智能体通过自身观测进行决策，但由于智能体之间的交互是稀疏的，在同一时刻无需关注所有的个体，导致观测中的不同个体对决策的影响力是不同的，且重要性随着时间变化而改变。

（3）注意力机制的直接引入有利于帮助智能体对不同的个体分配不同的注意力，但由于传统的注意力机制采用softmax激活函数，无法完全忽略不相关个体；然而若直接采用稀疏化方法对不相关实体置零，则会使得智能体无法探索更多的策略，且训练初期智能体模型难以分辨哪些个体是更加重要的。

发明内容

为了克服现有技术的缺陷，解决多智能体强化学习中随着智能体数目增多导致联合动作空间过大、探索困难的问题，本发明提出了一种用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法，在智能体效用函数中引入了稀疏化注意力机制作为辅助决策，在保证没有信息丢失的前提下帮助智能体关注视野范围内对决策具有更重要影响力的个体，引导智能体进行科学决策，从而提升智能体决策的效率和精度。由于本发明是对智能体本地效用函数进行的改进，因此可以嵌入到任何基于价值函数的MARL框架中，具有十分广泛的应用。

本发明是通过下述技术方案实现的：

一种用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法，包括以下步骤：

步骤1：初始化多智能体的效用函数网络参数、混合网络参数和目标混合网络参数；

步骤2：将每一个智能体当前时刻的本地观测进行编码，得到本地观测编码向量，分别利用自注意力和稀疏注意力获取每一个智能体的自注意力输出和稀疏化注意力输出；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于之江实验室;浙江大学，未经之江实验室;浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210508557.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种适用于无人艇的能量存储系统及无人艇
下一篇：一种车辆零部件强度试验方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法在审

专利文献下载