[发明专利]一种统一的基于好奇心驱动的强化学习方法在审

专利信息
申请号: 202010428975.X 申请日: 2020-05-20
公开(公告)号: CN111931943A 公开(公告)日: 2020-11-13
发明(设计)人: 李玺;皇福献;崔家宝;李伟超 申请(专利权)人: 浙江大学
主分类号: G06N20/00 分类号: G06N20/00;G06K9/62
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 傅朝栋;张法高
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 统一 基于 好奇心 驱动 强化 学习方法
【权利要求书】:

1.一种统一的基于好奇心驱动的强化学习方法,其特征在于包括以下步骤:

S1、学习注意力模块,并通过包含注意力模块的特征提取网络获取状态的特征表达;

S2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计,再使用前向动态预测估计状态动作对的探索程度,估计得到的三种探索程度即为初步估计的内部奖励;

S3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;

S4、将平滑处理后的不同类型的内部奖励进行融合,得到更加准确和鲁棒的内部奖励;

S5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。

2.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,步骤S1中所述的注意力模块为特征提取网络的一部分,通过该模块可以弱化无关的特征,从而获得关于状态更准确的特征表达;状态st经过注意力模块之后,获得的特征表达记为

3.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,步骤S2中所述的状态新颖性估计对下一步的状态st+1的探索程度进行估计,具体计算如下:

其中:为下一个状态st+1的探索程度,h(st+1;θN)为第一深度网络对下一个状态st+1特征的预测值,θN为第一深度网络的参数,为特征提取网络提取到的st+1的深层卷积特征;

同理,利用状态新颖性估计对当前状态st的探索程度进行估计,具体计算如下:

其中:为当前状态st的探索程度,h(st;θC)为第二深度网络对当前状态st特征的预测值,θC为第二深度网络的参数,为特征提取网络提取到的st的深层卷积特征;

然后,针对当前状态st下动作at的探索程度,使用前向动态预测来估计状态动作对的探索程度,具体计算如下:

其中:为状态动作对的探索程度,为第三深度网络对当前状态st下执行动作at之后下一个状态特征的预测值,θF为第三深度网络的参数;

所得的三种探索程度和即为初步估计的内部奖励。

4.如权利要求1所述的一种统一的基于好奇心驱动的强化学习方法,其特征在于,所述步骤S3包括以下子步骤:

S31、使用外部记忆体E来存储智能体和环境交互过程中产生的样本,当前的样本记为(st,at,st+1);在估计样本(st,at,st+1)对应的内部奖励时,首先在E中采样出与该样本距离小于阈值的D个样本,记为:

S32、对D个样本分别根据步骤S2估计出三种探索程度,其中第j个样本(st,j,at,j,st+1,j)的三种探索程度记为:计算采样出的每个样本与样本(st,at,st+1)之间的相似程度,其中第j个样本与样本(st,at,st+1)之间的相似程度为:

其中:d(st,j,st)为st,j和st之间的余弦距离;

基于上述采样出样本的探索程度以及它们与当前时刻样本之间的相似程度,计算出采样样本探索程度的加权平均结果作为经过平滑后的内部奖励,计算过程如下:

其中:分别为三种经过平滑后的探索程度估计值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010428975.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top