首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]优化经验回放采样策略的强化学习方法在审

申请号：	202010254698.5	申请日：	2020-04-02
公开（公告）号：	CN111461347A	公开（公告）日：	2020-07-28
发明（设计）人：	李厚强;周文罡;孙培泉	申请（专利权）人：	中国科学技术大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06N3/08
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;韩珂
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	优化经验回放采样策略强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种优化经验回放采样策略的强化学习方法，其特征在于，包括：

步骤1、在每个时刻，智能体和环境交互得到经验，并将经验存储在经验回放池中；

步骤2、在更新当前训练策略时，从经验回放池中等概率随机采样λ·B个经验样本；其中，B为设定的数值，λ≥1控制着优先化采样的程度；

步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性，从而选出相似性最大的前B个经验样本；

步骤4、使用选出的B个经验样本对当前训练策略进行训练；

步骤5、本次训练结束后，判断训练步数是否达到最大值，若否，则返回步骤2。

2.根据权利要求1所述的一种优化经验回放的强化学习方法，其特征在于，时刻t的经验e_t＝(s_t,a_t,r_t,s_t+1)，其中，s_t、s_t+1分别表示时刻t、t+1的状态，a_t表示时刻t的动作，r_t表示时刻t的回报，一个时刻对应一个训练步。

3.根据权利要求1所述的一种优化经验回放采样策略的强化学习方法，其特征在于，相似性比较时根据状态的维度来选择对应方法：

如果状态维度低于设定值，则使用余弦相似性算法；

如果状态维度高于设定值，则先随机生成一个编码矩阵，编码矩阵在训练过程中固定，将状态通过该编码矩阵进行编码，以降低维度并获得对应的特征向量，在比较特征向量之间的相似性。

4.根据权利要求1所述的一种优化经验回放采样策略的强化学习方法，其特征在于，对λ进行退火处理

在α·T内，λ从设定的初始值线性退火到1，以使得当训练结束时，采样为均匀采样；其中，α为设定的系数，T为训练最大步数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010254698.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于生成对抗网络的通用扰动生成方法
下一篇：基于FPGA加速的Winograd YOLOv2目标检测模型方法

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top