[发明专利]一种基于离在线训练结合的兵力行为决策模型加速构建方法在审

申请号：	202210642647.9	申请日：	2022-06-08
公开（公告）号：	CN115062761A	公开（公告）日：	2022-09-16
发明（设计）人：	龚光红;韩宏伟;董力维;李妮	申请（专利权）人：	北京航空航天大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于在线训练结合兵力行为决策模型加速构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于离在线训练结合的兵力行为决策模型加速构建方法，其特征在于：所述方法具体包括如下步骤：

S1：基于专家样本重用机制进行离线数据集构建，将不同类型的策略与仿真环境的交互数据进行集成，形成支持后续离线训练的高质量数据集，其中，在面向具体兵力决策任务时，对基于规则推理、流程图、有限状态机不同类型的专家策略与仿真环境进行交互，交互后产生带奖励信息的交互数据，基于后续不同范式的离线与在线学习对所述交互数据进行针对性的重构和处理，形成离线模仿学习的“行为—动作”专家数据集，同时将带奖励的专家数据集作为在线深度Q网络DQN的样本池的永久性子集，在线强化学习的同时从所述DQN策略的所述交互数据和所述专家数据集中进行采样，实现专家交互数据的持续保留；

S2：离线预训练步骤，具体包括：利用行为克隆BC算法，基于已有的专家示例数据进行离线的监督式训练，在离线预训练阶段，避免与底层仿真环境的交互，离线预训练后得到一个符合预设条件的初始策略，其中所述预设条件与策略的表现相关；

S3：基于专家示例样本增强机制的在线训练，利用异策略的DQN能够充分利用任意行为策略交互数据的特点，结合所述专家示例数据重用机制，将专家数据一直作为经验样本池的子集来进行使用，同时提出一种专家数据集增强机制，在DQN在线训练的过程中，定期进行策略评估，根据策略达到的不同提升阈值，将不同比例的在线DQN交互数据集存入所述专家数据中。

2.根据权利要求1所述的方法，其特征在于，所述S1具体流程如下：

S1-1：定义奖励函数r_t(s_t,a_t)；

S1-2：使兵力智能体沿着专家策略π_E与对抗环境进行长时间若干轮的交互，得到一系列有奖励的专家策略交互序列{τ₁,τ₂,…,τ_m}，每条专家策略交互序列包含状态、动作和相应的奖励所述专家策略交互序列称为专家示例数据，反映的是专家策略在面临某种对抗态势时会进行何种行为决策,所有m条序列数据形成数据集

S1-3：初始化两个空数据集

S1-4：对所述数据集D_E中的序列进行以下操作：依次将序列中所有的“状态—行为”对抽取出来作为放入所述数据集每个“状态—行为”对(s,a)作为一个训练样本，状态向量s作为特征向量feature，参数化行为a作为标签label，支持后续监督式的行为克隆模仿学习；

S1-5：对所述数据集D_E中的序列进行操作：依次将序列中所有的“状态—行为—奖励—新状态”短序列抽取出来放入数据样本池所述中，每个“状态—行为—奖励—下一个状态”短序列(s,a,r,s′)作为一个训练样本，其中序列如下所示：

至此，基于专家样本重用机制构成了用于行为克隆模仿学习的专家数据集以及用于在线强化学习的专家数据集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210642647.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于强化学习转角权重分配的人车协同转向控制方法
下一篇：车辆数据的处理方法和装置、存储介质及电子装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于离在线训练结合的兵力行为决策模型加速构建方法在审

专利文献下载