[发明专利]递归环境预测器及其方法有效
申请号: | 201780080770.3 | 申请日: | 2017-11-04 |
公开(公告)号: | CN110114784B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | D.P.威尔斯特拉;S.穆罕默德;S.恰帕;S.H.A.拉卡尼尔 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/044 | 分类号: | G06N3/044;G06N3/049;G06N3/092 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 递归 环境 预测 及其 方法 | ||
用于环境模拟的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种系统包括递归神经网络,该递归神经网络被配置为在多个时间步骤中的每个处:接收先前的时间步骤的先前的动作,使用先前的动作从先前的时间步骤更新递归神经网络的先前的初始隐藏状态,至少使用该时间步骤的初始隐藏状态,从先前的时间步骤更新递归神经网络的先前的单元状态,以及使用该时间步骤的单元状态确定该时间步骤的最终隐藏状态。该系统还包括解码器神经网络,该解码器神经网络被配置为接收该时间步骤的最终隐藏状态并且处理最终隐藏状态以生成表征该时间步骤的环境的预测的状态的预测观察。
技术领域
本说明书涉及递归神经网络系统和方法。
背景技术
机器学习系统可以用于预测将从代理执行计划的动作而产生的环境的状态的未来观察。
用于预测未来观察的机器学习系统可以包括神经网络。
神经网络是机器学习模型,其使用一层或多层非线性单元来预测接收的输入的输出。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层(即下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集合的当前值来从接收的输入生成输出。
发明内容
本说明书一般地描述了神经网络系统。神经网络系统包括递归神经网络,该递归神经网络被配置为在多个时间步骤中的每个处接收与环境交互的代理的先前的动作,并且从先前的时间步骤更新递归神经网络的初始隐藏状态、最终隐藏状态和单元状态。神经网络系统包括解码器神经网络,该解码器神经网络被配置针对一个或多个时间步骤,处理递归神经网络的最终隐藏状态并且产生针对该时间步骤的环境的预测观察作为输出。因此,神经网络系统可以被认为是环境模拟系统。表征环境的状态的数据在本说明书中将被称为观察。
先前的动作是:由代理在先前的时间步骤处已经执行的动作(如果,关于先前的时间步骤,系统正在处理已经执行的动作以调整未来的预测);或者由代理在先前的时间步骤处要执行的动作(如果,关于先前的时间步骤,系统已经预测将从由代理执行计划的动作而产生的未来观察)。
依赖于系统和解码器神经网络的配置,解码器神经网络可以被配置为:(i)在每个未来时间步骤(即,观察不是已知的每个时间步骤)处,生成预测观察;或(ii)仅在未来时间步骤的子集(例如,仅针对代理执行了动作的计划的轨迹中的最后一个动作之后的时间步骤或者针对未来时间步骤的预定间隔)处,生成预测观察。
在一些实现方式中,环境是模拟环境,并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如,模拟环境可以是视频游戏,并且代理可以是玩视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如驾驶模拟或飞行模拟,并且代理是导航穿过运动模拟环境的模拟车辆。在这些实现方式中,动作可以是控制模拟用户或模拟车辆的控制输入。
在一些其他实现方式中,环境是真实世界环境,并且代理是与真实世界环境交互的机械代理。例如,代理可以是与环境交互以完成特定任务的机器人。作为另一示例,代理可以是导航穿过环境的自主或半自主车辆。在这些实现方式中,动作可以是控制机器人或自主车辆的控制输入。因此,该系统可以用于预测未来观察以提供更有效的控制系统。
在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。
在强化学习系统中,在许多情况下,例如,为了选择要由代理执行的动作或查看由代理要执行的动作的计划的轨迹对环境的影响,可能有必要的或有利的是:通过环境模拟系统预测一个或多个未来观察,其表征从代理已经执行的动作以及将来在代理中将执行的动作而产生的环境的未来状态。
在基于模型的探索系统中,其中,代理与真实世界或模拟环境交互以探索环境,代理的探索策略可以至少部分地基于由环境模拟系统所生成的环境的预测观察。例如,代理可以选择以下动作序列:根据环境模拟系统的预测,该动作序列将使得代理观察先前的未观察到的环境的部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780080770.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用辅助任务的强化学习
- 下一篇:信息处理装置、信息处理方法及信息处理程序