[发明专利]优化经验回放采样策略的强化学习方法在审
申请号: | 202010254698.5 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111461347A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 李厚强;周文罡;孙培泉 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 经验 回放 采样 策略 强化 学习方法 | ||
本发明公开了一种优化经验回放采样策略的强化学习方法,包括:步骤1、在每个时刻,智能体和环境交互得到经验,并将经验存储在经验回放池中;步骤2、在更新当前训练策略时,从经验回放池中等概率随机采样λ·B个经验样本;其中,B为设定的数值,λ≥1控制着优先化采样的程度;步骤3、逐一比较经验样本中包含的状态与当前训练策略对应状态之间的相似性,从而选出相似性最大的前B个经验样本;步骤4、使用选出的B个经验样本对当前训练策略进行训练;步骤5、本次训练结束后,判断训练步数是否达到最大值,若否,则返回步骤2。该方法通过改进经验回放采样策略,显著提高强化学习的效率,并且保持了强化学习训练的高效性。
技术领域
本发明涉及强化学习技术领域,尤其涉及一种优化经验回放采样策略的强化学习方法。
背景技术
近年来,随着在围棋、视频游戏及仿真机器人控制上的突破性成功,深度强化学习已经成为人工智能领域的一个重要研究方向。许多工作致力于扩大强化学习算法在不同场景中的泛用性,而将强化学习算法用于机器人的控制中是其中的方向之一。然而,虽然目前的强化学习算法在许多任务上均表现出优异的性能,但它们往往需要大量的环境交互才能训练出性能足够好的策略。在真实环境中,环境交互意味着智能体需要在真实的环境中行动。智能体(如机器人)在真实环境中的行动的耗时远大于仿真环境,而且需要额外的人力监督和电力资源等。因此,大量的环境交互在真实环境中是不可行的,低下的样本效率限制了目前强化学习算法在实际场景中的广泛应用。
经验回放技术是目前深度强化学习算法中的一个重要组成部分。经验回放将过去智能体的经验储存在一个经验回放池中,然后从经验回放池中反复采样来对策略进行优化。通过多次利用过去的经验来训练当前策略,经验回放提高了强化学习算法的样本效率和训练稳定性。最原始的经验回放技术在采样时是从回放池中均匀等概率地采样,然而,经验回放池中不同样本对优化当前策略的重要程度是不一样的。简单的等概率采样无视了样本之间不同的重要程度,而通过更频繁地采样重要的样本,可以加速策略的学习,进一步提高算法的样本效率。
由于样本的重要性无法直接定量地衡量,现有的经验回放优化算法大都致力于设计一个样本重要性的替代指标。优先经验回放(PrioritizedExperienceReplay,PER)用时间差分(TD-error)的大小作为样本来近似表示样本的重要性。该算法认为,时间差分大的样本对网络的“惊喜”程度大,表明网络对该样本对预测有更大的不确定性,因而有更高的训练价值。铭记与遗忘经验回放(RememberandForgetExperienceReplay,Ref-ER)用样本与当前策略等相似程度作为重要程度等指标。Ref-ER只用接近于当前策略的样本来进行训练,并且保持策略改变的程度在一定范围内,不会偏离产生样本的策略过多。用接近当前策略的样本对策略进行优化有利于策略对稳定,加快策略的学习速度。经验回放优化(ExperienceReplayOptimization,ERO)不像于PER和Ref-ER认为设计一个采样策略,ERO通过用额外的强化学习算法训练一个策略来对采样策略进行优化。通过让采样策略自适应学习,可以让该策略得到优化。
现有技术缺点1:PER方法在基于值的强化学习算法中效果较好,然而在基于策略优化的算法中,特别是演员-批评家(actor-critic)算法中,性能不好。由于演员-批评家有两个神经网络—价值网络和策略网络,PER根据价值网络的时间差分值来选取样本。根据此选出的样本对价值网络的训练价值较大,然而选出的样本对策略网络的训练不一定高效,因此在实际应用中,PER在基于策略优化的算法中的性能并不好。
现有技术缺点2:Ref-ER方法在采样时需要判断一个样本是否与当前的策略接近。为了做此判断,需要储存产生该样本时的动作的概率。对于一个相同的样本,产生它时的概率不同对该样本是否该用于训练的判断也不同。某个样本是否应该被用于采样应该由该样本自身决定,而与产生它的策略无关。
现有技术缺点3:ERO方法需要额外训练一个强化学习策略,增加了学习成本,提高了复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010254698.5/2.html,转载请声明来源钻瓜专利网。