[发明专利]利用集中式推理和训练的强化学习在审

申请号：	202080044844.X	申请日：	2020-09-25
公开（公告）号：	CN114026567A	公开（公告）日：	2022-02-08
发明（设计）人：	拉塞·埃斯佩霍尔特;王可;马尔钦·M·米哈尔斯基;彼得·米查尔·斯坦奇克;拉斐尔·马里尼耶	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06N3/00	分类号：	G06N3/00;G06N3/04;G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	邓聪惠;周亚荣
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	利用集中推理训练强化学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

用于利用集中式推理和训练来执行强化学习的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括：在多个时间步中的当前时间步处，接收行动者对于多个环境中的每个环境的相应观察；对于每个环境，作为行动者在当前时间步之前的先前时间步处执行相应动作的结果，获得对行动者的相应奖励；对于每个环境，通过策略模型来处理相应的观察和相应的奖励；向行动者提供针对多个环境中的每一个环境的相应策略输出；在存储库处对于每个环境维持对应于行动者的相应元组序列；确定所维持的序列满足阈值条件；以及作为响应，在所维持的序列上训练策略模型。

技术领域

本说明书涉及强化学习。

背景技术

在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。

一些强化学习系统响应于接收到根据神经网络的输出的给定观察来选择要由代理执行的动作。

神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入来生成输出。

发明内容

本说明书描述了用于利用集中式策略模型执行强化学习的技术。

在一个方面，本说明书涉及一种方法，包括：接收由相应行动者对多个环境中的每个环境生成的相应观察；对每个环境，通过策略模型来处理包括对环境的相应观察的相应策略输入，以获得用于行动者的相应策略输出；对环境中的每一个环境，向相应行动者提供对环境的相应动作；对环境中的每一个环境，获得作为在环境中执行所提供的动作的结果而生成的对环境的相应行动者的相应奖励；对每个环境维持相应的元组序列；确定所维持的序列满足阈值条件；以及作为响应，在所维持的序列上训练策略模型。

实施方式可以包括以下特征中的一个或多个。策略模型具有多个模型参数值。相应的策略输出定义用于在环境中执行任务的控制策略。根据由相应策略输出定义的控制策略来确定相应动作。相应的元组序列中的至少一个元组包括相应的观察、动作和响应于行动者在环境中执行动作而获得的奖励。相应的元组序列被存储在优先级重放缓冲器中，并从优先级重放缓冲器中采样以训练策略模型。策略输入可以包括成批的相应策略模型输入，并且策略输出可以包括对成批的相应策略模型输入的每一批的成批的相应策略输出。行动者不包括策略模型。

本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。

通过集中策略模型，实现本说明书的主题的系统可以容易地缩放以处理任意数量的不同环境中的任意数量的行动者的观察。因为策略模型集中在学习器引擎处，所以学习器引擎不必在与学习器引擎互连的每个行动者之间同步模型参数值和用于策略模型的其他值。相反，在行动者和学习器引擎之间的网络通信量，即数据传输被减少到仅由行动者对学习器引擎的推理调用，以及由学习器引擎响应于推理调用而生成的动作。

因为推理和训练是集中的，所以可以集中计算上更昂贵和稀缺的计算资源来执行和训练策略模型，而不是在实现计算效率较低的行动者引擎的硬件上执行策略模型。例如，学习器引擎可以在多个硬件加速器(例如，诸如张量处理单元(“TPU”)的神经网络加速器)上实现，其中，单独的处理线程专用于处理推理调用、训练和数据预取操作，例如，对训练数据进行批处理、对数据进行排队或将数据发送到优先级重放缓冲器和/或用于一个或多个硬件加速器的设备缓冲器。行动者不必在用于在环境中执行动作的操作与用于生成定义更适合于在硬件加速器上执行的未来动作的新策略输出的操作之间交替。

学习引擎可以自动地或响应于用户输入，调整被配置为执行推理操作的加速器与被配置为执行训练操作的加速器之间的比率。在一些实施方式中，对推理与训练分配的特定比率，提高了实现学习器引擎的系统的总吞吐量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080044844.X/2.html，转载请声明来源钻瓜专利网。

上一篇：信息处理装置、信息处理方法、再现处理装置和再现处理方法
下一篇：注射模制系统的流量控制

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用集中式推理和训练的强化学习在审

专利文献下载