[发明专利]一种统一的基于好奇心驱动的强化学习方法在审

申请号：	202010428975.X	申请日：	2020-05-20
公开（公告）号：	CN111931943A	公开（公告）日：	2020-11-13
发明（设计）人：	李玺;皇福献;崔家宝;李伟超	申请（专利权）人：	浙江大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种统一基于好奇心驱动强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种统一的基于好奇心驱动的强化学习方法，其特征在于包括以下步骤：

S1、学习注意力模块，并通过包含注意力模块的特征提取网络获取状态的特征表达；

S2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计，再使用前向动态预测估计状态动作对的探索程度，估计得到的三种探索程度即为初步估计的内部奖励；

S3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理；

S4、将平滑处理后的不同类型的内部奖励进行融合，得到更加准确和鲁棒的内部奖励；

S5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。

2.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法，其特征在于，步骤S1中所述的注意力模块为特征提取网络的一部分，通过该模块可以弱化无关的特征，从而获得关于状态更准确的特征表达；状态s_t经过注意力模块之后，获得的特征表达记为

3.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法，其特征在于，步骤S2中所述的状态新颖性估计对下一步的状态s_t+1的探索程度进行估计，具体计算如下：

其中：为下一个状态s_t+1的探索程度，h(s_t+1；θ_N)为第一深度网络对下一个状态s_t+1特征的预测值，θ_N为第一深度网络的参数，为特征提取网络提取到的s_t+1的深层卷积特征；

同理，利用状态新颖性估计对当前状态s_t的探索程度进行估计，具体计算如下：

其中：为当前状态s_t的探索程度，h(s_t；θ_C)为第二深度网络对当前状态s_t特征的预测值，θ_C为第二深度网络的参数，为特征提取网络提取到的s_t的深层卷积特征；

然后，针对当前状态s_t下动作a_t的探索程度，使用前向动态预测来估计状态动作对的探索程度，具体计算如下：

其中：为状态动作对的探索程度，为第三深度网络对当前状态s_t下执行动作a_t之后下一个状态特征的预测值，θ_F为第三深度网络的参数；

所得的三种探索程度和即为初步估计的内部奖励。

4.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法，其特征在于，所述步骤S3包括以下子步骤：

S31、使用外部记忆体E来存储智能体和环境交互过程中产生的样本，当前的样本记为(s_t，a_t，s_t+1)；在估计样本(s_t，a_t，s_t+1)对应的内部奖励时，首先在E中采样出与该样本距离小于阈值的D个样本，记为：

S32、对D个样本分别根据步骤S2估计出三种探索程度，其中第j个样本(s_t，j，a_t，j，s_t+1，j)的三种探索程度记为：计算采样出的每个样本与样本(s_t，a_t，s_t+1)之间的相似程度，其中第j个样本与样本(s_t，a_t，s_t+1)之间的相似程度为：

其中：d(s_t，j，s_t)为s_t，j和s_t之间的余弦距离；

基于上述采样出样本的探索程度以及它们与当前时刻样本之间的相似程度，计算出采样样本探索程度的加权平均结果作为经过平滑后的内部奖励，计算过程如下：

其中：分别为三种经过平滑后的探索程度估计值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010428975.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载