[发明专利]基于强化学习的兵棋多实体异步协同决策方法和装置有效
申请号: | 202210782446.9 | 申请日: | 2022-07-05 |
公开(公告)号: | CN114880955B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 张煜;蒋超远;罗俊仁;李婷婷;刘运;杨景照;刘果;李鑫;刘屹峰;陈佳星 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/00;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 彭小兰 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 兵棋多 实体 异步 协同 决策 方法 装置 | ||
本申请属于智能决策技术领域,涉及基于强化学习的兵棋多实体异步协同决策方法和装置,方法包括:获取兵棋推演环境以及多实体异步协同决策问题,对多实体异步协同决策问题进行建模分析,得到初始模型;根据初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;对智能体网络模型和混合评估网络模型进行训练,得到协同决策框架;通过设置加权算子或通过多步回报优化多智能体深度强化学习算法,重构多智能体深度强化学习算法的损失函数;采用重构的损失函数更新协同决策框架;根据更新后的协同决策框架,对多实体的异步协同进行决策。本申请能够实现兵棋推演中多实体异步协同的决策。
技术领域
本申请涉及智能决策技术领域,特别是涉及基于强化学习的兵棋多实体异步协同决策方法和装置。
背景技术
兵棋推演是一种利用兵棋进行模拟战争活动的过程。兵棋玩家使用代表环境和军事力量的棋盘和棋子,依据特定的军事规则和概率论原理,模拟战争对抗,对作战方案进行过程推演和评估优化。国防大学兵棋团队研制了战略战役兵棋系统,并指出了人工智能技术应用到兵棋推演中需要解决的关键性问题——智能态势感知。早期的兵棋智能体设计主要利用人类高水平玩家推演经验形成知识库,进而实现给定状态下的行为决策,称之为规则智能体。利用OODA环是设计规则智能体一种方式,在OODA环中的决策模块通常基于行为树或有限状态机等框架编程实现。
随着智能体在游戏领域战胜了人类高水平玩家后,部分兵棋推演领域的研究人员开始思考如何将现有的人工智能技术迁移到兵棋推演中,设计能够对抗甚至超越人类玩家的兵棋智能体。2017年,在全国兵棋推演大赛中,中科院自动化所研究的CASIA先知1.0系统以7:1的成绩击败了人类八强选手。在2020年,中国科学院自动化所研究的AlphaWar引入了监督学习和自博弈技术实现了联合策略的学习,并且在与人类选手的对抗中通过了图灵测试。深度强化学习兼具深度学习的感知能力和强化学习的决策能力,近年来,部分学者开始尝试将深度强化学习算法应用到兵棋智能体的设计中。
在兵棋推演中,需要多个异构算子相互配合最大化集体得分,完成兵棋推演的最终任务。兵棋类似于游戏,近年来以深度强化学习为基础的游戏AI(ArtificialIntelligence)AlphaGo、AlphaStar战胜了人类高水平玩家,因此,在兵棋推演与人工智能的交叉研究领域,基于强化学习的兵棋智能决策方法成为了热门研究问题。
综上,基于强化学习的兵棋智能决策技术取得了诸多研究成果,但是在实际应用过程中存在两类需要解决的关键性问题:
其一,兵棋推演中是多实体共同参与对抗,目前大多数兵棋智能决策算法都是基于单智能体强化学习算法设计。在兵棋对抗环境中,多算子协同问题缺乏统一的决策流程框架。
其二,兵棋中多实体的异构性导致多智能体协作的异步性,即不同智能体的基本动作执行时长不一致。这种异步性导致现有的多智能体强化学习算法难以有效的解决兵棋多实体异步协作问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于强化学习的兵棋多实体异步协同决策方法和装置,能够基于强化学习算法,实现兵棋推演中多实体异步协同的决策。
基于强化学习的兵棋多实体异步协同决策方法,包括:
获取兵棋推演环境以及与所述兵棋推演环境相对应的多实体异步协同决策问题,对所述多实体异步协同决策问题进行建模分析,得到初始模型;
根据所述初始模型,采用多智能体深度强化学习算法,建立智能体网络模型和混合评估网络模型;根据所述智能体网络模型和混合评估网络模型进行循环计算,根据计算结果对所述智能体网络模型和所述混合评估网络模型进行训练,得到所述多实体异步协同决策问题的协同决策框架;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210782446.9/2.html,转载请声明来源钻瓜专利网。