[发明专利]智能体的协同对战方法及装置有效

申请号：	202111495010.3	申请日：	2021-12-09
公开（公告）号：	CN113893539B	公开（公告）日：	2022-03-25
发明（设计）人：	黄茗;王滨;原鑫;李波	申请（专利权）人：	中国电子科技集团公司第十五研究所
主分类号：	A63F13/52	分类号：	A63F13/52;G06K9/62;G06N3/08
代理公司：	北京秉文同创知识产权代理事务所(普通合伙) 11859	代理人：	赵星;陈少丽
地址：	100083 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能协同方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种智能体的协同对战方法，其特征在于，所述方法包括：

确定智能体进行对战的虚拟空战场景；

根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，所述动作空间信息至少包括动作值，所述状态空间信息至少包括状态值；所述动作空间信息至少包括：初始指令和动作指令，其中，所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种，所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种；所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息，以及各个智能体之间的关联关系，各个智能体的状态信息还包括是否存活和智能体类型，所述各个智能体之间的关联关系至少包括智能体之间的距离；具体包括：

在所述虚拟空战场景内，设置每个智能体的局部观测信息为，全局观察空间为，；每个智能体的动作为；

确定每个智能体的动作与观测历史的曲线信息，包括：

；

确定每个智能体的分布式策略，所述分布式策略包括：

，其值函数为，i，t为大于0的自然数，θ为目标神经网络参数；

根据所述状态值，确定与所述状态值对应的动作的奖励值；

根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值，对初始强化学习模型进行训练，当所述初始强化学习模型处于收敛状态时，得到目标强化学习模型；具体包括：对于每个智能体的局部动作值函数，采用VDN算法进行计算，得到联合动作值函数，所述联合动作值函数包括：

通过采用初始强化学习模型qmix的分布式策略和混合网络模型，使用局部动作值函数来获取最优动作，并联合动作值函数取argmax转化为单调性约束，包括：

对所述初始强化学习模型qmix进行训练的过程中，得到代价函数为：

其中b为采样的样本数量；

根据所述代价函数确定所述目标强化学习模型，所述目标强化学习模型包括：

，其中表示目标网络，r为奖励值，γ表示更新率，表示下一时刻的联合动作-观测历史、联合动作、系统状态，表示下一时刻的目标神经网络参数；