[发明专利]加强学习系统在审
申请号: | 201780078702.3 | 申请日: | 2017-11-04 |
公开(公告)号: | CN110088775A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | D.西尔弗;T.肖尔;M.黑塞尔;H.P.范哈塞尔特 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提供了方法、系统和装置,其包括在计算机存储介质上编码的计算机程序,所述计算机程序用于预测与环境有关的结果。在一个方面,一种系统包括状态表示神经网络,被配置为接收表征与代理交互的环境的状态的观察,并处理该观察以生成环境状态的内部状态表示;预测神经网络,被配置为接收当前环境状态的当前内部状态表示,并处理当前内部状态表示以生成环境的后续状态的预测后续状态表示和用于后续状态的预测回报;和值预测神经网络,被配置为接收当前环境状态的当前内部状态表示,并处理当前内部状态表示以生成值预测。 | ||
搜索关键词: | 内部状态 预测 后续状态 环境状态 神经网络 计算机程序 配置 计算机存储介质 学习系统 状态表示 观察 代理 回报 | ||
【主权项】:
1.一种由一个或多个计算机实现的系统,该系统包括:状态表示神经网络,被配置为:接收一个或多个观察,其表征正与代理交互的环境的状态,以及处理所述一个或多个观察以生成当前环境状态的内部状态表示;预测神经网络,被配置为针对多个内部时间步骤中的每一个:接收用于内部时间步骤的内部状态表示;和处理用于内部时间步骤的内部状态表示以生成:用于下一内部时间步骤的内部状态表示,和用于下一内部时间步骤的预测回报;值预测神经网络,被配置为针对所述多个内部时间步骤中的每一个:接收用于内部时间步骤的内部状态表示,和处理用于内部时间步骤的内部状态表示以生成值预测,该值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计;和预测子系统,被配置为:接收表征环境的状态的一个或多个观察;提供所述一个或多个观察作为状态表示神经网络的输入,以生成当前环境状态的内部状态表示;针对所述多个内部时间步骤中的每一个:使用预测神经网络和值预测神经网络以及根据用于内部时间步骤的内部状态表示来生成:用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、以及值预测;和根据用于内部时间步骤的预测回报和值预测来确定总回报。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201780078702.3/,转载请声明来源钻瓜专利网。
- 上一篇:使用强化学习的环境导航
- 下一篇:用于训练深度神经网络的计算机设备