[发明专利]用于训练参数化策略的装置和方法在审

申请号：	202180036524.4	申请日：	2021-02-04
公开（公告）号：	CN115668215A	公开（公告）日：	2023-01-31
发明（设计）人：	文森特·莫恩斯;胡格斯·范·阿塞尔;海瑟姆·布·阿马尔	申请（专利权）人：	华为技术有限公司
主分类号：	G06N3/00	分类号：	G06N3/00;G06N5/00;G06N7/00;G06N20/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于训练参数策略装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于根据提议分布(202)训练参数化策略(204)的装置，其特征在于，所述装置包括一个或多个处理器，所述一个或多个处理器用于重复执行以下步骤：

根据所述提议分布形成提议；

将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；

估计所述输出状态与所述提议的优选状态之间的损失(206)；

通过自适应算法并根据所述损失形成策略自适应；

对所述策略应用(210)所述策略自适应，以形成自适应策略；

通过所述自适应策略，形成所述策略自适应的方差估计值；

根据所述方差估计值，自适应(212)所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。

2.根据权利要求1所述的装置，其特征在于，所述提议是伪随机数序列。

3.根据权利要求1或2所述的装置，其特征在于，所述提议分布是参数化提议分布。

4.根据权利要求3所述的装置，其特征在于，所述自适应所述提议分布的步骤包括自适应所述提议分布的一个或多个参数。

5.根据上述权利要求中任一项所述的装置，其特征在于，包括以下步骤：

对所述策略自适应中的噪声进行第一次估计；

对所述噪声依赖于所述提议的程度进行第二次估计；

根据所述第二次估计，自适应所述提议分布。

6.根据上述权利要求中任一项所述的装置，其特征在于，所述提议分布由梯度方差估计器自适应，从而将所述策略自适应的方差估计值作为输入。

7.根据权利要求6所述的装置，其特征在于，所述方差估计器是随机估计器。

8.根据上述权利要求中任一项所述的装置，其特征在于，所述提议通过对所述提议分布进行随机采样而形成。

9.根据上述权利要求中任一项所述的装置，其特征在于，所述自适应算法以抑制连续迭代中所述自适应的方差的方式对轨迹进行采样。

10.根据上述权利要求中任一项所述的装置，其特征在于，所述自适应算法形成策略梯度，并通过随机优化所述策略梯度来形成所述自适应。

11.根据上述权利要求中任一项所述的装置，其特征在于，所述参数化策略包括神经网络模型。

12.一种用于根据提议分布(202)训练参数化策略(204)的方法，其特征在于，所述方法包括重复执行以下步骤：

根据所述提议分布形成提议；

将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；

估计所述输出状态与所述提议的优选状态之间的损失(206)；

通过自适应算法并根据所述损失形成策略自适应；

对所述策略应用(210)所述策略自适应，以形成自适应策略；

通过所述自适应策略，形成所述策略自适应的方差估计值；

根据所述方差估计值，自适应(212)所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。

13.一种参数化策略(204)，其特征在于，所述参数化策略由根据权利要求1至11所述的装置或根据权利要求12所述的方法形成。

14.一种处理装置，其特征在于，包括一个或多个处理器，所述一个或多个处理器用于接收输入，并通过权利要求13所述的参数化策略(204)处理所述输入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202180036524.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载