[发明专利]通过最小化妄想影响来确定控制策略在审
申请号: | 201980070743.7 | 申请日: | 2019-10-29 |
公开(公告)号: | CN112930541A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 刘畠;达莱·埃里克·舒尔曼斯;克雷格·埃德加·布蒂利耶 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 最小化 妄想 影响 确定 控制 策略 | ||
1.一种确定用于与环境交互的代理的控制策略的方法,所述方法包括:
维持用于定义多个信息集的数据,每个信息集对应于相应的策略约束集并且标识由所述控制策略在所述策略约束集下分配给观察-动作对的Q值;
接收用于表征所述环境的当前状态的当前观察、由所述代理响应于所述当前观察而执行的当前动作、用于表征所述环境的下一状态的下一观察、以及作为所述代理执行所述当前动作的结果而接收的奖励;
确定用于所述控制策略的在当前观察-当前动作对的策略一致的备份,包括:
针对能够由所述代理执行的可能动作集中的多个动作中的每个动作,标识由所述控制策略分配给所述控制策略的下一观察-动作对的并且由所述信息集中的至少一个来证明的Q值;
从所标识的Q值中修剪仅由不是策略类一致的信息集证明的任何Q值;以及
从所述奖励和仅未被修剪的所标识的Q值来确定所述策略一致的备份;以及
通过使用Q学习而使用所述策略一致的备份来更新所述代理的控制策略。
2.根据权利要求1所述的方法,其中,通过使用Q学习而使用所述策略一致的备份来更新所述代理的控制策略包括:通过使用无模型Q学习来更新所述控制策略,并且其中,从所述奖励和仅未被修剪的所标识的Q值来确定所述策略一致的备份包括:确定Q备份。
3.根据前述权利要求中任一项所述的方法,其中,所述策略一致的备份包括针对用于证明未被修剪的Q值的每个信息集的相应的备份。
4.根据权利要求3所述的方法,其中,所述相应的备份是基于(i)所述奖励和(ii)未被修剪并由所述信息集证明的Q值。
5.根据前述权利要求中任一项所述的方法,其中,不是策略类一致的信息集是施加导致所述控制策略响应于所述当前观察而未选择所述当前动作的策略约束的那些信息集。
6.一种确定用于与环境交互的代理的控制策略的方法,所述方法包括:
维持用于定义多个信息集的数据,每个信息集对应于相应的策略约束集并且标识由所述控制策略在所述策略约束集下分配给观察-动作对的Q值;
接收用于表征所述环境的当前状态的当前观察、由所述代理根据当前控制策略响应于所述当前观察而执行的当前动作、以及作为所述代理执行所述当前动作的结果而接收的奖励;
确定用于所述控制策略的在当前观察-当前动作对的策略一致的备份,包括:
针对多个下一状态中的每个状态:
针对能够由所述代理执行的可能动作集中的多个动作中的每个动作,标识由所述控制策略分配给所述控制策略的下一观察-动作对的并且由所述信息集中的至少一个来证明的Q值,其中,所述下一观察是用于表征所述下一状态的观察;以及
从所标识的Q值中修剪仅由不是策略类一致的信息集证明的任何Q值;以及
从所述奖励和仅针对所述下一状态中的每个状态未被修剪的所标识的Q值来确定所述策略一致的备份;以及
通过使用Q学习而使用所述策略一致的备份来更新所述代理的控制策略。
7.根据权利要求6所述的方法,进一步包括:维持所述环境的动态的转换模型,其中,从所述奖励和仅未被修剪的所标识的Q值来确定所述策略一致的备份包括:通过使用所述奖励和针对所述下一状态未被修剪的所标识的Q值来确定Bellman备份。
8.根据权利要求7所述的方法,其中,所述转换模型将所述当前观察和所述当前动作映射到用于所述下一状态中的每个状态的相应的概率,并且其中,确定Bellman备份包括通过使用所述奖励、用于所述下一状态的相应的概率、以及针对所述下一状态未被修剪的所标识的Q值来确定Bellman备份。
9.根据前述权利要求中任一项所述的方法,其中,所述控制策略通过使用神经网络来选择待由所述代理执行的动作,并且其中,更新所述控制策略包括针对用于证明未被修剪的Q值的每个信息集来训练相应的神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980070743.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:可食性宠物咬胶及其形成方法
- 下一篇:脉搏波速度测量系统