[发明专利]一种强化学习的高效探索方法在审

申请号：	201910549586.X	申请日：	2019-06-24
公开（公告）号：	CN110390399A	公开（公告）日：	2019-10-29
发明（设计）人：	张寅;胡滨	申请（专利权）人：	浙江大学
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种强化学习的高效探索方法，该方法的步骤如下：1)预训练计数估计函数；2)利用预训练的计数估计函数进行强化学习的高效探索。本发明主要针对强化学习中探索与利用的平衡问题，在连续空间任务中，通过预训练计数估计函数估计智能体所遇到的状态的出现次数，利用状态的出现次数计算奖赏，通过奖赏引导智能体探索那些较少遇到的状态从而实现高效探索。本发明通过使用独立的探索策略处理奖赏信号，避免了奖赏信号对智能体行动策略的影响，使得探索过程更稳定。
搜索关键词：	强化学习探索智能体奖赏信号奖赏策略处理次数计算函数估计连续空间平衡问题
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种强化学习的高效探索方法，其特征在于，步骤如下：1)预训练计数估计函数，预训练过程为：1.1)在环境的状态空间中进行采样；1.2)对每个采样到的状态，分别用独立的VAE对其进行重构；1.3)对每个采样到的状态s，用不同数量的状态s训练VAE，并计算对应的重构误差；记数量为count时的重构误差为error，得到三元组为<s,error,count>；1.4)将不同状态和不同数量下得到的三元组<s,error,count>构成三元组集合M；1.5)将计数估计函数用神经网络c_θ(s,err)表示，用1.4)中所得到的三元组集合M作为数据集训练神经网络c_θ，每一轮训练时从三元组集合M中采样一个批次的数据：式中：N为当前批次数据的个数；s_i为第i个数据记录的状态s，err_i为第i个数据记录的重构误差error，cnt_i为第i个数据记录的数量count；神经网络c_θ损失函数为:2)利用预训练的计数估计函数进行强化学习的高效探索，探索过程为：2.1)将强化学习算法中的行动策略μ(s)拷贝一份作为探索策略μ_E(s)；2.2)初始化一个VAE，记为V^*；2.3)对于强化学习过程中遇到的<状态s，动作a，奖励r>序列，对于每一个<状态s，动作a，奖励r>对，用状态s训练V^*并计算其重构误差err^*＝‖V^*(s)‑s‖²，V^*(s)表示状态s输入V^*所得到的结果；2.4)用状态s的实时重构误差err^*和预训练的计数估计函数c_θ(s，err)估计状态s出现次数cnt(s)＝c_θ(s，err^*)；2.5)按照公式(1)或(2)，用估计的状态出现次数cnt(s)计算相应的奖赏：式中：β为奖赏量级因子，β>0；2.6)用环境给出的奖励信号r训练行动策略μ(s)，用奖赏信号R训练探索策略μ_E(s)；在训练探索策略时，同时引入与行动策略的距离约束α‖μ(s)‑μ_E(s)‖²，α为约束项因子；2.7)以一定的概率p选择探索策略产生的动作与环境进行交互，以剩下的概率1‑p选择行动策略产生的动作与环境进行交互；2.8)不断重复2.3)～2.7)，直到满足终止条件，终止循环，完成强化学习的高效探索。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910549586.X/，转载请声明来源钻瓜专利网。

上一篇：在线学习方法
下一篇：计算模型的特征生成方法、装置、电子设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种强化学习的高效探索方法在审

专利文献下载