[发明专利]人机对抗智能体策略制定方法有效

申请号：	202110488990.8	申请日：	2021-05-06
公开（公告）号：	CN112926729B	公开（公告）日：	2021-08-03
发明（设计）人：	尹奇跃;黄凯奇;赵美静	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孙剑锋;李雪
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人机对抗智能策略制定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供通用的人机对抗智能体策略制定方法，包括：获取多智能体博弈仿真环境中各个智能体当前帧的状态信息、当前帧的地图信息；采用全连接神经网络处理各个智能体的状态信息，卷积神经网络处理各个智能体的地图信息，串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的动作，上述网络参数构成了智能体决策的策略网络参数；采用全连接神经网络处理各个智能体的状态信息，卷积神经网络处理各个智能体的地图信息，串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的值估计，上述网络参数构成了智能体值网络参数；应用所述智能体的值估计构成损失函数，采用策略梯度下降算法进行策略网络参数更新。

技术领域

本申请涉及多智能体人机对抗领域，尤其涉及人机对抗智能体策略制定方法。

背景技术

现实场景中的大多数决策问题都需要多个智能体的有效协同进而完成复杂的决策问题。基于此，尽管传统的单智能体深度强化学习技术取得了一系列显著的成绩，但是却难以解决复杂博弈游戏乃至现实复杂决策问题，需要多智能体深度强化算法的支撑。为实现智能体间的有效协同，一般多智能体强化学习算法在设计时需要显式考虑智能体之间的通信、进行智能体之间的信用分配等，进而在各个智能体决策时涌现协同，解决多智能体协同决策问题。

公开号为CN108921298A，公开了一种强化学习多智能体沟通与决策方法，包括：根据各个智能体的观测状态信息通过神经网络提取相应的状态特征；将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类，得到聚类后的沟通信息；将聚类后的沟通信息分发给各个智能体，由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合，并通过智能体内部的全连接神经网络进行动作决策。

公开号为CN112132263A，公开了一种基于强化学习的多智能体自主导航方法，属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量，并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入，从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作，使得智能体的策略更加鲁棒。

考虑到现实博弈环境较为复杂，尽管通过设计通信等方式可以一定程度实现多智能体策略的有效制定，但是对于策略的训练却存在较大的计算开销，难以支撑复杂博弈决策问题通过自我博弈数轮的多智能体策略迭代。因此，如何设计简单有效的多智能体算法实现策略的快速训练成为解决复杂博弈问题亟需解决的问题。

发明内容

本发明提供人机对抗智能体策略制定方法，包括：

S1：获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征；

S2：将所述每个智能体当前帧的状态特征输入到策略网络的全连接神经网络，得到策略网络状态特征；将所述每个智能体当前帧的地图特征输入到策略网络的卷积神经网络，得到策略网络地图特征；将所述策略网络状态特征、策略网络地图特征和智能体的编码特征串接，得到智能体当前帧的策略网络总体特征；将所述智能体当前帧的策略网络总体特征输入到策略网络长短时记忆网络并输出每个智能体的动作；所述策略网络的全连接神经网络的参数、所述策略网络的卷积神经网络的参数和所述策略网络长短时记忆网络的参数构成了智能体决策的策略网络参数；

S3：将所述每个智能体当前帧的状态特征输入到值网络的全连接神经网络，得到值网络状态特征；将所述每个智能体当前帧的地图特征输入到值网络的卷积神经网络，得到值网络地图特征；将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接，得到智能体当前帧的值网络总体特征；将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络并输出智能体的值估计；所述值网络的全连接神经网络的参数、所述值网络的卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数；

S4：将每个智能体当前帧的状态特征输入权重全连接神经网络，得到映射并归一化得到每个智能体的值估计的权重；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110488990.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种食用油加工过滤装置
下一篇：处理方法及装置、处理器、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]人机对抗智能体策略制定方法有效

专利文献下载