[发明专利]用于训练参数化策略的装置和方法在审

专利信息
申请号: 202180036524.4 申请日: 2021-02-04
公开(公告)号: CN115668215A 公开(公告)日: 2023-01-31
发明(设计)人: 文森特·莫恩斯;胡格斯·范·阿塞尔;海瑟姆·布·阿马尔 申请(专利权)人: 华为技术有限公司
主分类号: G06N3/00 分类号: G06N3/00;G06N5/00;G06N7/00;G06N20/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 训练 参数 策略 装置 方法
【说明书】:

一种用于根据提议分布训练参数化策略的装置,所述装置包括一个或多个处理器,所述一个或多个处理器用于重复执行以下步骤:根据所述提议分布形成提议;将所述提议输入到所述策略中,以根据所述提议的所述策略形成输出状态;估计所述输出状态与所述提议的优选状态之间的损失;通过自适应算法并根据所述损失形成策略自适应;对所述策略应用所述策略自适应,以形成自适应策略;通过所述自适应策略,形成所述策略自适应的方差估计值;根据所述方差估计值,自适应所述提议分布,以减小在所述步骤的后续迭代中形成的策略自适应的方差。

技术领域

发明涉及训练用于强化学习的参数化策略。

背景技术

基于模型的强化学习是一组开发用于离线学习控制策略的技术,即无需直接与环境交互,这可能带来高昂成本。与梯度估计器相关联的方差是策略梯度强化学习中普遍存在的问题。在基于模型的强化学习的背景下,使用随机性模型和策略来模拟用于策略训练的随机轨迹时,这一问题会变得更加严重。

基于模型的强化学习(Model-based reinforcement learning,MB-RL)可以通过环境的确定性或随机性模型进行。与确定性模型相比,通常假设该策略通过探索可能的信息性轨迹从转移模型的随机性中获益,因为这些轨迹要么是有奖励的,要么是成本高昂的,否则就会被忽略。对于假设不完美的模型,智能体可以处理不完全了解环境的问题,从而找到最有利可图的期望策略。然而,当使用从轨迹模拟中检索的梯度来更新策略时,消除该偏差的代价是蒙特卡洛梯度估计值的方差更高。该问题的解决方案是,例如,通过使用矩匹配的多变量高斯分布近似轨迹的可能多峰分布。虽然这大大简化了轨迹结果的评估,但这可能会过度简化问题,在高维问题和长期任务中尤为如此。它还要求从业人员使用自定义奖励函数,有时会违反以下假设,即奖励函数没有可访问的分析公式。控制变量(包括基线)或Rao-Blackwellisation等常用方差减小技术可以部分降低模拟梯度的方差,但这些技术的使用必须根据所使用的梯度估计器进行定制。具体地,它们主要与似然比梯度估计器一起使用,并且几乎无法处理来自随机性模型的噪声。

由于模型和策略的随机性,大多数现有MB-RL算法都摒弃了梯度噪声问题。在无模型RL中,这是一个得到广泛研究的问题,已提出多种方法来应对这一问题,例如近端策略更新、基于重要性采样的策略优化等。

已提出一种用于在MB-RL的背景下应对这一问题的现有算法,称为基于粒子的策略搜索的概率推理(Probabilistic Inference for Particle-Based Policy Search,PIPPS)。PIPPS使用重新参数化和似然比梯度估计器的混合。通过对这两个估计器进行仔细加权来实现降噪。根据非参数化提议分布,生成一组粒子。换句话说,PIPPS示出了如何在给定所生成轨迹的情况下减小更新的方差。

此外,PIPPS还具有高计算成本。在每个时间步长处,必须计算分步更新的参数的方差,这对于大型模型而言并不可行。在实践中,PIPPS假设可以访问每个梯度分量,即每个轨迹、步骤和粒子;大多数ML库通常不会这样处理梯度融合且分量不可访问的情况。因此,访问这些梯度的计算成本很高。

因此,PIPPS很难将“现成设计”应用于现有算法。这需要进行大量的编码工作,并且计算复杂性远远大于目前的计算复杂性。

需要开发一种方法以及用于实现该方法的装置,该方法可降低MB-RL环境中的梯度噪声,同时提供基于随机梯度估计的控制算法的更快、更高效的样本训练。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202180036524.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top