[发明专利]一种基于动作检测机制的CGF行为建模方法及系统在审
申请号: | 202211683042.0 | 申请日: | 2022-12-27 |
公开(公告)号: | CN115906664A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 黄林;潘昕;龚立;刘亚杰;施连会;王康勃;朱一鑫 | 申请(专利权)人: | 中国人民解放军海军工程大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F18/214;G06N3/0442;G06N3/08 |
代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 刘琳 |
地址: | 430000 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动作 检测 机制 cgf 行为 建模 方法 系统 | ||
本发明公开了一种基于动作检测机制的CGF行为建模方法及系统,在动作和奖励两方面引入交互引导式干预,用于训练CGF行为模型使之可以在特定的任务环境中完成指定的任务,具体为:一是在模型输出的动作基础上增加检测判断机制;二是CGF与环境交互结果的奖励值经过检测判断后再输入至DR算法中。相比于直接采取不基于模型的DRL算法直接开展CGF行为模型运算,可以在CGF行为模型中融入更准确的动作经验值,加速深度强化学习算法的收敛过程。本发明提供了一套较为完整的模型训练流程和方法,可以为CGF行为建模提供参考,可以广泛应用于军事建模与仿真领域。
技术领域
本发明涉及计算机生成兵力行为建模技术领域,特别是涉及一种基于强化学习和动作检测机制的计算机生成兵力行为建模方法和系统。
背景技术
计算机生成兵力(Computer Generated Force,CGF)是作战仿真领域的重点研究内容之一,其思想是通过仿真的方式模拟战场环境中的坦克、士兵和作战飞机等军事单位,主要用于战术推演、模拟训练和辅助决策等,以达到降低成本、扩大规模的目的。传统的CGF建模方法有有限状态机、行为树、动态脚本等知识工程方法,主要针对具体的作战任务,收集作战条令、行动规程等领域专家知识直接描述行为输出,一是通常需要耗费大量的时间和重复性迭代工作;二是CGF行为能力通常仅限于确定的理论和规则,产生的行为缺乏适应性。
强化学习(Reinforcement Learning,RL)是机器学习的一个重要分支,是一种以环境反馈作为输入并能通过人为定义的奖励回报逐步适应环境的学习方法。强化学习智能体(Agent)通过不断地与环境交互获取经验并学习到相应的策略。近年来,由于强化学习算法和计算机硬件能力的提升,该领域取得了长足进步,强化学习控制的智能体能够适应日益复杂的环境并用于解决相关问题,开始逐步往模拟训练、兵棋推演、红蓝双方对抗等应用中拓展。然而,由于强化学习算法训练所需样本数量大、超参数影响和算法收敛的稳定性等方面问题,想要训练得到稳定和可靠的强化学习智能体仍然是比较困难的,并且针对不同的应用领域目前还没有相对统一的体系框架和通用的解决方案。目前,在强化学习算法及算法改进的领域可以查到大量的相关文献,但针对特定领域的相对通用化的强化学习算法集成框架的文献资料较少,相关算法的开发、训练和应用流程框架也非常有限。
CGF行为建模是具有以下几大特点,一是CGF在与环境的交互过程中需要尽可能多地试错,因此需要探索大量的未知动作;二是CGF与环境有实时的交互,并且在交互的过程中会改变环境的状态;三是CGF与环境的交互关注的是长线回报,即不以完成某个具体的动作如开火或隐蔽等为目的,而是以完成某个特定任务为最终目标。这三点决定了采用DL进行CGF建模是非常自然的且有优势的。另一方面,深度学习(Deep Learning,DL)近年来发展迅速,在众多领域都取得了好的应用效果。深度强化学习(Deep Reinforcement Learning,DRL)是DL与RL的结合,是在RL的基础上引入了深度神经网络的概念,借助神经网络强大的表征能力拟合Q函数或直接拟合策略以解决状态-动作空间过大或连续状态-动作空间问题,实现了从感知到动作的端到端的学习。因此,基于DRL的CGF行为建模能够获得泛化能力强的任务策略,同时能够自动提取战术特征,在建模效率、建模的客观性和探索更大的动作空间方面具有更大的优势,能够克服上述所提迭代性工作和缺乏适应性的问题。
但是,即使目前最新的端到端的DRL算法仍然需要巨大的样本量,而CGF行为建模可供使用的数据通常是有限的,因为战斗数据的获取通常非常困难且代价极大,所以DRL算法训练到收敛的过程极为艰难。
发明内容
为了解决上述背景技术的不足之处,本发明提出一种基于动作检测机制的强化学习驱动的CGF行为建模方法及系统,在动作和奖励两方面引入交互引导式干预,用于训练CGF行为模型使之可以在特定的任务环境中完成指定的任务。
为实现上述目的,本发明所设计的一种基于动作检测机制的CGF行为建模方法,其特殊之处在于,所述方法包括如下步骤:
S1基于LSTM-SAC算法框架构建CGF行为预测模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军海军工程大学,未经中国人民解放军海军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211683042.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于弹簧类零件的检测夹具
- 下一篇:一种控温式水处理缓蚀剂溶解混合设备