[发明专利]一种基于示教数据的多步规则提取方法、设备及存储介质有效

申请号：	202110262169.4	申请日：	2021-03-10
公开（公告）号：	CN112884129B	公开（公告）日：	2023-07-18
发明（设计）人：	寇广;易晓东;王之元;韩晓旭	申请（专利权）人：	中国人民解放军军事科学院国防科技创新研究院
主分类号：	G06N3/042	分类号：	G06N3/042;G06N3/092;G06N3/047
代理公司：	北京云科知识产权代理事务所(特殊普通合伙) 11483	代理人：	张飙
地址：	100070 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据规则提取方法设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于示教数据的多步规则提取方法，其特征在于，包括规则生成模块与规则结合强化学习训练模块，所述方法包括以下步骤：

首先，规则生成模块在强化学习环境中顺序执行示教数据中的动作序列；从示教数据对应的动作序列中取出连续动作序列；随机初始化智能体和神经网络；提取出规则；

其次，合强化学习训练模块将提取出的规则融入至强化学习智能体训练过程，规则结合强化学习训练模块的流程为：设置智能体动作空间中规则数量，通过扩展动作空间维度为原始动作空间维度，引入规则的ID作为智能体的可选动作，智能体决策为规则ID时，将会执行对应规则的动作序列，决策为原始动作时会直接执行，每隔一定时间步，根据规则的分数更新其动作空间中的规则；

示教数据包含L+1对状态动作对，要提取的多步规则长度为K，其中KL，规则生成模块首先利用专家数据在环境中进行仿真：按照专家示教数据τ＝(s₀,a₀,s₁,a₁,…,s_L,a_L)中的动作序列(a₀,a₁,…,a_L)在强化学习的仿真环境中执行，收获环境的奖励，得到连续的交互数据φ=(s₀,a₀,r₀,s₁,a₁,r₁,...,a_L,r_L)，随后，规则生成模块从交互数据中取出L-K段连续的长度为K的连续动作序列：Φ＝{{a₀,a₁,…,a_K-1},{a₁,a₂,…,a_K},…,{a_L-K+1,a_T-L+2,…,a_L}}作为备选多步规则对应的动作序列，同时保存这L-K段动作序列的初始状态集合Ψ＝{{s₀},{s₁},…,{s_L-K+1}}作为规则对应的触发条件集，

为了实现规则的有效利用，评估备选规则对于强化学习智能体的价值，定义了如下的分数计算机制：

公式(1)中，对于第j条规则，定义U为规则的分数，衡量了规则价值的大小；

其中，D(s_j,s_j+K-1)为规则初始状态s_j与规则结尾状态s_j+K-1的间距；N(s_j+K-1)指状态s_j+K-1的访问次数；为采用规则j时收获到的累积奖励；a为探索价值的权重，b为利用价值的权重。

2.根据权利要求1所述的基于示教数据的多步规则提取方法，其特征在于，规则生成模块首先对专家数据进行处理，将数据在强化学习仿真环境中模拟执行，分割成等距的数据片段，记录每个数据片段的累积环境奖励，设置规则分数计算机制，用以计算每个数据片段的分数作为规则的打分。

3.根据权利要求1或2所述的基于示教数据的多步规则提取方法，其特征在于，规则分数计算主要由探索价值和利用价值两个部分计算组成：探索价值与多步规则初始末尾状态距离成正比，与末尾状态的访问次数成反比。

4.根据权利要求3所述的基于示教数据的多步规则提取方法，其特征在于，采用欧式距离计算初始状态与末尾状态间的距离D(s_j,s_j+K-1)；智能体状态空间的维度为n，状态间距采用公式(2)计算：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院，未经中国人民解放军军事科学院国防科技创新研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110262169.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于可量测实景的城市部件搜索方法
下一篇：用于提供耐化学品的膜的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于示教数据的多步规则提取方法、设备及存储介质有效

专利文献下载