[发明专利]一种统一的基于好奇心驱动的强化学习方法在审
申请号: | 202010428975.X | 申请日: | 2020-05-20 |
公开(公告)号: | CN111931943A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 李玺;皇福献;崔家宝;李伟超 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统一 基于 好奇心 驱动 强化 学习方法 | ||
1.一种统一的基于好奇心驱动的强化学习方法,其特征在于包括以下步骤:
S1、学习注意力模块,并通过包含注意力模块的特征提取网络获取状态的特征表达;
S2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计,再使用前向动态预测估计状态动作对的探索程度,估计得到的三种探索程度即为初步估计的内部奖励;
S3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;
S4、将平滑处理后的不同类型的内部奖励进行融合,得到更加准确和鲁棒的内部奖励;
S5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。
2.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,步骤S1中所述的注意力模块为特征提取网络的一部分,通过该模块可以弱化无关的特征,从而获得关于状态更准确的特征表达;状态st经过注意力模块之后,获得的特征表达记为
3.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,步骤S2中所述的状态新颖性估计对下一步的状态st+1的探索程度进行估计,具体计算如下:
其中:为下一个状态st+1的探索程度,h(st+1;θN)为第一深度网络对下一个状态st+1特征的预测值,θN为第一深度网络的参数,为特征提取网络提取到的st+1的深层卷积特征;
同理,利用状态新颖性估计对当前状态st的探索程度进行估计,具体计算如下:
其中:为当前状态st的探索程度,h(st;θC)为第二深度网络对当前状态st特征的预测值,θC为第二深度网络的参数,为特征提取网络提取到的st的深层卷积特征;
然后,针对当前状态st下动作at的探索程度,使用前向动态预测来估计状态动作对的探索程度,具体计算如下:
其中:为状态动作对的探索程度,为第三深度网络对当前状态st下执行动作at之后下一个状态特征的预测值,θF为第三深度网络的参数;
所得的三种探索程度和即为初步估计的内部奖励。
4.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,所述步骤S3包括以下子步骤:
S31、使用外部记忆体E来存储智能体和环境交互过程中产生的样本,当前的样本记为(st,at,st+1);在估计样本(st,at,st+1)对应的内部奖励时,首先在E中采样出与该样本距离小于阈值的D个样本,记为:
S32、对D个样本分别根据步骤S2估计出三种探索程度,其中第j个样本(st,j,at,j,st+1,j)的三种探索程度记为:计算采样出的每个样本与样本(st,at,st+1)之间的相似程度,其中第j个样本与样本(st,at,st+1)之间的相似程度为:
其中:d(st,j,st)为st,j和st之间的余弦距离;
基于上述采样出样本的探索程度以及它们与当前时刻样本之间的相似程度,计算出采样样本探索程度的加权平均结果作为经过平滑后的内部奖励,计算过程如下:
其中:分别为三种经过平滑后的探索程度估计值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010428975.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:非概率混合可靠度指数的去嵌套分析方法
- 下一篇:水性环氧涂料的制备方法