[发明专利]一种基于离在线训练结合的兵力行为决策模型加速构建方法在审
申请号: | 202210642647.9 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115062761A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 龚光红;韩宏伟;董力维;李妮 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 在线 训练 结合 兵力 行为 决策 模型 加速 构建 方法 | ||
1.一种基于离在线训练结合的兵力行为决策模型加速构建方法,其特征在于:所述方法具体包括如下步骤:
S1:基于专家样本重用机制进行离线数据集构建,将不同类型的策略与仿真环境的交互数据进行集成,形成支持后续离线训练的高质量数据集,其中,在面向具体兵力决策任务时,对基于规则推理、流程图、有限状态机不同类型的专家策略与仿真环境进行交互,交互后产生带奖励信息的交互数据,基于后续不同范式的离线与在线学习对所述交互数据进行针对性的重构和处理,形成离线模仿学习的“行为—动作”专家数据集,同时将带奖励的专家数据集作为在线深度Q网络DQN的样本池的永久性子集,在线强化学习的同时从所述DQN策略的所述交互数据和所述专家数据集中进行采样,实现专家交互数据的持续保留;
S2:离线预训练步骤,具体包括:利用行为克隆BC算法,基于已有的专家示例数据进行离线的监督式训练,在离线预训练阶段,避免与底层仿真环境的交互,离线预训练后得到一个符合预设条件的初始策略,其中所述预设条件与策略的表现相关;
S3:基于专家示例样本增强机制的在线训练,利用异策略的DQN能够充分利用任意行为策略交互数据的特点,结合所述专家示例数据重用机制,将专家数据一直作为经验样本池的子集来进行使用,同时提出一种专家数据集增强机制,在DQN在线训练的过程中,定期进行策略评估,根据策略达到的不同提升阈值,将不同比例的在线DQN交互数据集存入所述专家数据中。
2.根据权利要求1所述的方法,其特征在于,所述S1具体流程如下:
S1-1:定义奖励函数rt(st,at);
S1-2:使兵力智能体沿着专家策略πE与对抗环境进行长时间若干轮的交互,得到一系列有奖励的专家策略交互序列{τ1,τ2,…,τm},每条专家策略交互序列包含状态、动作和相应的奖励所述专家策略交互序列称为专家示例数据,反映的是专家策略在面临某种对抗态势时会进行何种行为决策,所有m条序列数据形成数据集
S1-3:初始化两个空数据集
S1-4:对所述数据集DE中的序列进行以下操作:依次将序列中所有的“状态—行为”对抽取出来作为放入所述数据集每个“状态—行为”对(s,a)作为一个训练样本,状态向量s作为特征向量feature,参数化行为a作为标签label,支持后续监督式的行为克隆模仿学习;
S1-5:对所述数据集DE中的序列进行操作:依次将序列中所有的“状态—行为—奖励—新状态”短序列抽取出来放入数据样本池所述中,每个“状态—行为—奖励—下一个状态”短序列(s,a,r,s′)作为一个训练样本,其中序列如下所示:
至此,基于专家样本重用机制构成了用于行为克隆模仿学习的专家数据集以及用于在线强化学习的专家数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210642647.9/1.html,转载请声明来源钻瓜专利网。