[发明专利]一种基于离在线训练结合的兵力行为决策模型加速构建方法在审

申请号：	202210642647.9	申请日：	2022-06-08
公开（公告）号：	CN115062761A	公开（公告）日：	2022-09-16
发明（设计）人：	龚光红;韩宏伟;董力维;李妮	申请（专利权）人：	北京航空航天大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于在线训练结合兵力行为决策模型加速构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于离在线训练结合的兵力行为决策模型加速构建方法，属于计算机生成兵力对抗决策技术领域。提出一种基于专家样本重用机制进行离线数据集构建的方法，支撑后续的离线行为克隆和在线强化学习过程；提出一种离线预训练机制，利用专家交互数据集，结合行为克隆算法，避免与底层仿真环境的交互，得到一个表现较优秀的初始策略；提出基于专家示例样本增强机制的在线训练方法，定期进行策略评估，在线强化学习在初始策略内涵知识的基础上完成策略提升。本发明的技术方案，能够有效加快模型调优进程，快速得到预期水平的兵力行为决策模型，同时纠正行为克隆算法可能存在的级联误差问题。

技术领域

本发明涉及计算机生成兵力对抗决策技术领域，尤其涉及一种智能对抗兵力行为决策中的强化学习决策模型加速构建技术领域。

背景技术

计算机生成兵力技术(Computer Generated Forces,CGF)已经成为了军事仿真领域至关重要的元素，基于深度强化学习算法构建兵力智能体并与战场环境进行持续交互，不断学习经验，更新深度神经网络，辅助其连续进行行为决策，是当前军事智能对抗行为决策领域的关键技术。

通常，构建和训练基于强化学习的兵力行为决策模型，依赖于兵力智能体与对抗仿真环境的在线交互产生的大量交互数据，针对特定任务需要通过长时间的策略迭代才能达到预期的水平。以下三方面原因使得强化学习策略迭代和训练的全过程具有非常可观的耗时性：

(1)强化学习训练本身须要进行大量的探索。强化学习本质上是试错的学习方法，核心思想是从已有的交互经验中高效稳定地优化策略，趋近任务目标。面对复杂兵力决策任务，一般须要兵力智能体与仿真环境进行成千上万轮的完整交互，才能探索得到足够数量的有效样本，训练得到较优策略。

(2)强化学习训练效率依赖于仿真环境的推进速率。强化学习需要使兵力智能体与仿真环境在线交互的过程中逐步完成策略的探索和强化，每一个时间步上智能体须要和仿真环境完成双向的交互。因此，仿真环境的推进速率很大程度上决定了强化学习的训练效率。并且复杂的联合兵力决策任务下，很难在有限硬件能力和计算资源条件下进行高倍率运行。

(3)强化学习的数据无法高效重复利用。强化学习的机制是兵力智能体在和仿真环境的交互过程中交替完成“采集交互数据”和“优化迭代策略”的两个关键过程。常规的同策略强化学习算法中，智能体利用自身最新的策略与环境的交互数据完成策略评估与自演化，旧版本的迭代策略与环境的交互数据只能在当次迭代中被利用。即使对于可以利用旧版本策略的异策略强化学习算法而言，目前仍然没有很好地解决强化学习本身存在的采样效率问题。因此，大规模兵力仿真场景下的多轮次、长时间交互的训练学习过程中，有效交互数据采集耗时且利用效率不高。

大部分情况下，设计者需要在不同的强化学习算法中进行尝试，在多种超参数配置下进行搜索，在有限计算资源下进行网络训练，以找到最高效的强化学习兵力行为决策建模方法。因此，须要加快强化学习方法进行训练的全过程，使得设计者能够短时间内得到算法训练的反馈结果，以加快调优进程，快速得到预期水平的兵力行为决策模型。

综上所述，强化学习智能对抗兵力行为决策模型的加速构建问题是须要重点突破的一个关键问题。如何设计一套数据驱动范式下的快速学习训练机制，高效利用兵力智能体与对抗仿真环境的历史交互数据，减少强化学习兵力行为决策模型训练系统的冷启动时间，并能加快兵力智能体在强化学习策略迭代训练中优化到理想智能对抗水平的进程，是强化学习方法在联合兵力对抗仿真场景下的兵力行为决策建模应用中亟待突破的一个重要技术难点。

发明内容

本发明针对面向兵力对抗的强化学习决策模型加速构建问题，提出一种离线训练和在线训练结合的决策模型加速构建方法。本方法通过行为克隆算法对专家样本进行监督学习，充分利用专家示例数据，由于离线行为克隆不考虑当前状态之后的长远影响，会将细微的误差在序贯的决策过程中逐步放大，产生级联误差的问题，本发明提出的离线训练与在线训练结合的方法可以缓解离线的行为克隆存在的级联误差问题。本发明的具体技术方案如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210642647.9/2.html，转载请声明来源钻瓜专利网。

上一篇：基于强化学习转角权重分配的人车协同转向控制方法
下一篇：车辆数据的处理方法和装置、存储介质及电子装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于离在线训练结合的兵力行为决策模型加速构建方法在审

专利文献下载