[发明专利]基于置信上界思想的经验回放采样强化学习方法及系统在审
申请号: | 202110038613.4 | 申请日: | 2021-01-12 |
公开(公告)号: | CN112734014A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 刘帅;韩思源;王小文 | 申请(专利权)人: | 山东大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 置信 上界 思想 经验 回放 采样 强化 学习方法 系统 | ||
1.基于置信上界思想的经验回放采样强化学习方法,其特征是,包括:
采集智能体与环境交互获得的经验,并将所述经验数据存储至经验回放池中;
在更新当前训练策略时,从所述经验回放池中根据优先概率随机选取经验,生成候选训练样本集;
根据每个候选训练样本的置信上界值,选择训练样本集;
根据所述训练样本数据对用于函数逼近的神经网络进行参数更新。
2.如权利要求1所述的基于置信上界思想的经验回放采样强化学习方法,其特征是,采集智能体与环境交互获得的经验之前,首先初始化深度强化学习算法的网络参数,当前最大时序差分误差值和智能体的初始观测值。
3.如权利要求2所述的基于置信上界思想的经验回放采样强化学习方法,其特征是,初始化之后,在每个时间步,智能体和环境交互获得经验,设置每条经验的优先值为当前最大优先值,并将经验存储到经验回放池中,具体为:
智能体从环境中获取当前时刻的观测值;
智能体根据当前策略和当前时刻观测值计算出当前时刻选择的动作;
智能体与环境交互执行动作,环境根据智能体的动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值和判断回合是否终止的指标;
使用当前最大时序差分误差计算当前最大优先值,将该时间步经验对应的优先值设置为当前最大优先值;
将交互过程中产生的数据添加到经验回放池中。
4.如权利要求1所述的基于置信上界思想的经验回放采样强化学习方法,其特征是,生成候选训练样本集时:
获取当前经验回放池中经验的优先值总和,将优先值总和平均分成λ·K份;
根据优先概率从每份中取出一个经验并添加至候选训练样本集中。
5.如权利要求1所述的基于置信上界思想的经验回放采样强化学习方法,其特征是,根据每个候选训练样本的置信上界值,选择训练样本集,具体为:
计算每个候选训练样本的置信上界值;
将置信上界值由小到大排序,选择前K个经验添加至训练样本集中;
根据训练样本集数据对网络参数进行更新;
计算每条训练样本的时序差分误差,并保存所有数据中时序差分误差的最大值;
根据前向传播得到的时序差分误差计算出损失函数,并进行梯度的反向传播;
根据梯度以及学习率的大小更新神经网络的参数。
优选的,计算每条训练样本的时序差分误差,并保存所有数据中时序差分误差的最大值时,将训练样本数据输入神经网络中,进行前向传播,获得每条训练样本的时序差分误差;
比较训练前存储的最大时序差分误差和当前训练样本对应的最大时序差分误差,并保存两者之间的最大值作为当前经验回放池中所有经验的时序差分误差最大值。
6.基于置信上界思想的经验回放采样强化学习系统,其特征是,包括:
采集模块,用于收集智能体与环境交互生成的经验数据,并将所述经验数据添加至经验回放池中;
采样模块,用于从所述经验回放池中根据优先概率随机选取多个经验,生成候选训练样本集;
排序模块,用于根据置信上界值对候选训练样本集中的经验进行排序,生成训练样本集;
更新模块,用于根据所述训练样本集更新神经网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110038613.4/1.html,转载请声明来源钻瓜专利网。