[发明专利]基于对手动作预测的智能体策略获取方法及相关装置在审

申请号：	202111537235.0	申请日：	2021-12-15
公开（公告）号：	CN114139653A	公开（公告）日：	2022-03-04
发明（设计）人：	黄健;韩润海;陈浩;刘权;李嘉祥;付可	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京风雅颂专利代理有限公司 11403	代理人：	李博瀚
地址：	410003 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于对手动作预测智能策略获取方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种基于对手动作预测的智能体策略获取方法及相关装置，从智能体所处的环境中获取环境状态，并提取环境状态的特征，得到环境状态特征；将环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；提取环境状态特征的隐层特征，得到Q值隐层特征；融合Q值隐层特征和对手策略特征，得到融合特征；将融合特征输入预先构建的竞争网络，得到Q值函数；获取智能体的备选动作，根据Q值函数，得到备选动作对应于环境状态的Q值，将Q值最大的备选动作作为智能体的执行动作。本申请能够有效预测对手动作，加快学习收敛速度，可以应对多种类型的对手。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于对手动作预测的智能体策略获取方法及相关装置。

背景技术

随着人工智能技术的发展，多智能体强化学习技术在机器博弈、实时策略游戏、机器人控制、汽车自动驾驶等领域得到了应用。多智能体强化学习任务中，通常包括一个共享的对抗环境和多个智能体，每个智能体与环境本身以及其他智能体进行交互。每个时刻，智能体根据自身状态，依据特定的策略从动作空间中选择动作并执行，对环境产生作用进而得到奖励或惩罚，直到时间终止或任务完成。

与单智能体强化学习的设定不同，多智能体强化学习中存在典型的“非平稳性”(Non-stationarity)问题，马尔可夫决策过程不再适用。这是因为在多智能体环境中，智能体的策略不仅取决于环境，还受到其他智能体动作的影响。而且，随着每个智能体策略学习的进行，它们的决策模型是随时间变化的(不平稳的)，因此智能体学习环境的动力学模型(奖励函数和状态转移概率)不再满足马尔可夫性，使得学习变得更加困难。

发明内容

有鉴于此，本申请的目的在于提出一种基于对手动作预测的智能体策略获取方法及相关装置。

基于上述目的，本申请提供了一种基于对手动作预测的智能体策略获取方法，包括：

从所述智能体所处的环境中获取环境状态，并提取所述环境状态的特征，得到环境状态特征；

将所述环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征；

提取所述环境状态特征的隐层特征，得到Q值隐层特征；

融合所述Q值隐层特征和所述对手策略特征，得到融合特征；

将所述融合特征输入预先构建的竞争网络，得到Q值函数；

获取所述智能体的备选动作，根据所述Q值函数，得到所述备选动作对应于所述环境状态的Q值，将所述Q值最大的所述备选动作作为所述智能体的执行动作。

可选的，所述对手动作预测网络中包含全连接隐层；

所述将所述环境状态特征输入预先构建的对手动作预测网络，得到对手策略特征，具体包括：

将所述环境状态特征输入所述全连接隐层，得到全连接隐层特征，将所述全连接隐层特征作为所述对手策略特征。