[发明专利]加强学习系统在审
申请号: | 201780078702.3 | 申请日: | 2017-11-04 |
公开(公告)号: | CN110088775A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | D.西尔弗;T.肖尔;M.黑塞尔;H.P.范哈塞尔特 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内部状态 预测 后续状态 环境状态 神经网络 计算机程序 配置 计算机存储介质 学习系统 状态表示 观察 代理 回报 | ||
1.一种由一个或多个计算机实现的系统,该系统包括:
状态表示神经网络,被配置为:
接收一个或多个观察,其表征正与代理交互的环境的状态,以及
处理所述一个或多个观察以生成当前环境状态的内部状态表示;
预测神经网络,被配置为针对多个内部时间步骤中的每一个:
接收用于内部时间步骤的内部状态表示;和
处理用于内部时间步骤的内部状态表示以生成:
用于下一内部时间步骤的内部状态表示,和
用于下一内部时间步骤的预测回报;
值预测神经网络,被配置为针对所述多个内部时间步骤中的每一个:
接收用于内部时间步骤的内部状态表示,和
处理用于内部时间步骤的内部状态表示以生成值预测,该值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计;和
预测子系统,被配置为:
接收表征环境的状态的一个或多个观察;
提供所述一个或多个观察作为状态表示神经网络的输入,以生成当前环境状态的内部状态表示;
针对所述多个内部时间步骤中的每一个:
使用预测神经网络和值预测神经网络以及根据用于内部时间步骤的内部状态表示来生成:用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、以及值预测;和
根据用于内部时间步骤的预测回报和值预测来确定总回报。
2.根据权利要求1所述的系统,其中,所述预测子系统还被配置为:
提供总回报作为对从处于当前状态的环境得到的回报的估计。
3.根据权利要求1或2中任一项所述的系统,其中,所述预测神经网络还被配置为生成用于下一内部时间步骤的预测折扣因子,并且其中,所述预测子系统被配置为在确定总回报时使用用于内部时间步骤的预测折扣因子。
4.根据权利要求2-3中任一项所述的系统,其中,所述系统还包括:
λ神经网络,被配置为针对每个内部时间步骤处理用于当前内部时间步骤的内部状态表示以生成用于下一内部时间步骤的λ因子,并且其中,预测子系统被配置为在确定总回报时确定用于内部时间步骤的返回因子,并使用λ因子来确定用于返回因子的权重。
5.根据权利要求1-4中任一项所述的系统,其中,所述状态表示神经网络包括递归神经网络。
6.根据权利要求1-4中任一项所述的系统,其中,所述状态表示神经网络包括前馈神经网络。
7.根据权利要求1至6中任一项所述的系统,其中,所述预测神经网络包括递归神经网络。
8.根据权利要求1-6中任一项所述的系统,其中,所述预测神经网络包括前馈神经网络,所述前馈神经网络在所述多个时间步骤中的每一个处具有不同的参数值。
9.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-8中任一项所述的相应方法的操作。
10.一种方法,包括由权利要求1-8中任一项所述的预测子系统执行的相应操作。
11.一种训练权利要求4-8中任一项的系统的方法,该方法包括:
确定损失梯度,所述损失梯度基于总回报和对从处于当前状态的环境得到的回报的估计;和
后向传播损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。
12.一种用于训练权利要求4-8和11中任一项所述的系统的方法,所述方法包括:
确定一致性损失梯度,所述一致性损失梯度基于由预测子系统针对内部时间步骤确定的返回因子的一致性;和
后向传播一致性损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。
13.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求11的相应方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780078702.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:使用强化学习的环境导航
- 下一篇:用于训练深度神经网络的计算机设备