[发明专利]一种基于强化学习的多智能体追逃博弈方法及设备在审

申请号：	202211552727.1	申请日：	2022-12-06
公开（公告）号：	CN115952729A	公开（公告）日：	2023-04-11
发明（设计）人：	扈晓翔;刘帅政;肖冰;张大巧	申请（专利权）人：	西北工业大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N5/048;G06N20/00;G06F119/14
代理公司：	北京高沃律师事务所 11569	代理人：	常祖正
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习智能体追逃博弈方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于强化学习的多智能体追逃博弈方法及设备，涉及人工智能技术领域。本发明通过自博弈的方式实现多智能体追逃博弈的策略生成，基于多智能体追逃的博弈数据，利用模糊学习和Q学习对于环境的探索和利用，能够自主生成最优博弈策略。并且，本发明采用模糊的方法对状态动作空间进行了合理划分，根据规则产生的纳什均衡解具有全局最优性和鲁棒性，由当前状态的邻接状态组成的局部Q值表，避免由于连续状态空间引起的维度灾难问题。

技术领域

本发明涉及多智能体强化学习领域，特别是涉及一种基于强化学习的多智能体追逃博弈方法及设备。

背景技术

追逃博弈问题是典型的微分博弈问题，最早应用于无人机作战、舰艇对抗、卫星拦截和导弹拦截等军事对抗领域。随着无人机、无人车等智能体的普及，追逃模型在工业制品的调度、搜索和搜救、监督监管、交通运输管理等方面也起着非常重要的作用。但基于两点边值问题的数值解法受限于边值条件、鲁棒性差，并且无法求解不完全信息下的追逃博弈、线性和平面动力模型下的多人追逃博弈及考虑不确定性因素的追逃微分博弈等。

发明内容

本发明的目的是提供一种基于强化学习的多智能体追逃博弈方法及设备，通过多智能体追逃的博弈数据，利用模糊学习和Q学习对于环境的探索和利用，能够自主生成最优博弈策略。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的多智能体追逃博弈方法，包括：

对当前追逃双方的相对位置状态进行模糊化处理，确定所述相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量；

根据所述当前模糊状态变量和已训练完成的关联函数，得到最大Q值函数；

基于所述最大Q值函数，在所述当前模糊状态变量下按照最优值选择输入状态变量，得到追逃博弈训练模型在当前状态下的最优输入状态变量策略；

利用去模糊化算法对所述最优输入状态变量策略进行去模糊化处理，得到最终的实际控制量。

优选地，所述关联函数的训练过程包括：

选取追逃双方的追逃博弈训练模型状态变量，并将所述追逃博弈训练模型状态变量以模糊集的形式进行存储；

根据当前时刻的所述追逃博弈训练模型状态变量构建当前时刻的所述追逃博弈训练模型状态变量及其邻接状态变量的局部关联函数；所述局部关联函数即为局部Q值表；

给出模糊规则中关联函数的更新规则；