[发明专利]利用集中式推理和训练的强化学习在审
申请号: | 202080044844.X | 申请日: | 2020-09-25 |
公开(公告)号: | CN114026567A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 拉塞·埃斯佩霍尔特;王可;马尔钦·M·米哈尔斯基;彼得·米查尔·斯坦奇克;拉斐尔·马里尼耶 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 集中 推理 训练 强化 学习 | ||
1.一种方法,包括:
对于多个环境中的每个环境,接收由相应行动者生成的相应观察;
对于每个环境,通过具有多个模型参数值的策略模型来处理包括对于所述环境的相应观察的相应策略输入,以获得针对所述行动者的定义用于在所述环境中执行任务的控制策略的相应策略输出;
向所述环境中的每个环境的相应行动者提供根据由所述环境的所述相应策略输出定义的所述控制策略确定的相应动作;
对于所述环境中的每个环境,获得作为所提供的动作在所述环境中被执行的结果而生成的对于所述环境的所述相应行动者的相应奖励;
对于每个环境,维持相应元组序列,至少一个元组包括相应观察、动作和响应于所述行动者在所述环境中执行所述动作而获得的奖励;
确定所维持的序列满足阈值条件;以及
作为响应,在所维持的序列上训练所述策略模型。
2.根据权利要求1所述的方法,进一步包括:
使所述行动者在环境中执行由提供给所述行动者的所述相应策略输出定义的相应动作。
3.根据权利要求2所述的方法,其中,所述环境是真实世界环境,并且其中,使所述行动者在所述环境中执行由提供给所述行动者的所述相应策略输出定义的所述相应动作包括:
使所述行动者向所述真实世界环境中的真实世界代理发送与所述相应动作相对应的一个或多个输入,其中,所述真实世界代理被配置为从所述行动者接收所述一个或多个输入并且在所述真实世界环境中执行所述相应动作。
4.根据权利要求2所述的方法,其中,所述环境是模拟环境,并且其中,使所述行动者在所述环境中执行由提供给所述行动者的所述相应策略输出定义的相应动作包括:
使所述行动者在所述模拟环境中执行所述相应动作。
5.根据前述权利要求中的任一项所述的方法,其中,对于每个环境,获得作为所述行动者在当前时间步之前的先前时间步处执行相应动作的结果的所述行动者的相应奖励:
对于每个环境,根据对于所述环境接收的所述相应观察来生成所述相应奖励。
6.根据前述权利要求中的任一项所述的方法,其中,维持每个环境的相应序列包括:
对于所述多个环境中的环境生成元组,所述元组包括:
(i)由行动者接收的对于所述环境的相应观察,
(ii)提供给所述行动者的对于所述环境的相应动作,以及
(iii)作为所述行动者在所述环境中执行所述相应动作的结果而生成的针对所述环境的对于相应行动者的相应奖励;以及
将所述元组添加到与所述环境和所述行动者相对应的相应元组序列。
7.根据前述权利要求中的任一项所述的方法,其中,所述策略模型是长短期记忆LSTM神经网络,并且其中,对于每个环境通过所述策略模型来处理所述相应观察和相应奖励包括维持对于所述LSTM神经网络的循环状态。
8.根据前述权利要求中的任一项所述的方法,其中,训练所述策略模型包括使用离策略强化学习技术来训练所述策略模型。
9.根据前述权利要求中的任一项所述的方法,其中,训练所述策略模型进一步包括:
将所维持的序列的元组添加到优先级重放缓冲器;以及
在从所述优先级重放缓冲器采样的元组上训练所述策略模型。
10.根据前述权利要求中的任一项所述的方法,其中,对于每个环境处理所述相应策略输入包括:
对相应策略模型输入进行批处理;以及
通过所述策略模型来处理批处理的输入以获得批处理的策略输出,所述批处理的策略输出包括所述批处理的策略输入中的每个策略输入的相应策略输出。
11.根据前述权利要求中的任一项所述的方法,其中,所述行动者不包括所述策略模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080044844.X/1.html,转载请声明来源钻瓜专利网。