[发明专利]基于想象力的代理神经网络在审
申请号: | 201880028596.2 | 申请日: | 2018-05-22 |
公开(公告)号: | CN110892420A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 丹尼尔·彼得·维尔斯特拉;李宇佳;拉兹万·帕什卡努;彼得·威廉·巴塔利亚;塞奥法尼·纪尧姆·韦伯;拉尔斯·比辛;戴维·保罗·赖克特;亚瑟·克莱蒙特·格斯;丹尼洛·吉米内斯·雷森德;阿德里亚·普伊赫多梅内奇·巴迪亚;奥里奥尔·温亚尔斯;尼古拉斯·曼弗雷德·奥托·黑斯;塞巴斯蒂安·亨利·拉卡涅雷 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 想象力 代理 神经网络 | ||
1.一种用于基于模型的强化学习的神经网络系统,其中所述神经网络系统用于选择要由与环境交互的代理执行的动作,以执行任务从而试图实现指定的结果,所述系统包括:
至少一个想象力核心,所述至少一个想象力核心包括所述环境的模型并具有输入以至少接收表征所述环境的当前状态的当前观察,其中所述想象力核心被配置成响应于所述当前观察而输出轨迹数据,所述轨迹数据定义了包括所述想象力核心想象的所述环境的未来特征的序列的轨迹;
至少一个卷展编码器,用于对来自所述想象力核心的特征的序列进行编码,以提供针对所述轨迹的卷展嵌入;以及
强化学习输出级,用于接收从所述卷展嵌入中导出的数据,并输出动作策略数据,所述动作策略数据用于定义基于所述当前观察来识别动作的动作策略。
2.根据权利要求1所述的神经网络系统,其中,所述神经网络被配置成:除首次使用所述想象力核心在先前时间期间生成的观察之外,在每种情况下都操作所述想象力核心多次,以生成所述轨迹作为特征的序列;并且所述至少一个卷展编码器被配置成对来自所述想象力核心的所述特征的序列进行编码,以生成所述轨迹的卷展编码。
3.根据权利要求2所述的神经网络系统,所述神经网络系统被配置成生成对基于相同的观察数据开始的多个轨迹中的每个轨迹的卷展编码;所述系统还包括聚集器,用于将所述卷展编码聚集成针对所述强化学习输出级的想象力代码,;并且其中,所述动作策略数据取决于所述想象力代码。
4.根据权利要求1、2或3所述的神经网络系统,还包括耦合在所述输入和所述强化学习输出级之间的无模型强化学习神经网络模块。
5.根据权利要求1至4中的任一项所述的神经网络系统,其中所述想象力核心包括耦合至策略模块的神经环境模型,其中所述神经环境模型耦合至所述输入以接收所述当前观察或观察历史,并且还被配置成接收当前动作并作为响应而预测至少后续观察;并且其中所述想象力核心被配置成使用所述策略模块以生成动作序列,并且所述环境模型被配置成生成状态序列,其中所述轨迹数据包括所述动作序列和/或所述状态序列。
6.根据权利要求5所述的神经网络系统,其中,所述轨迹数据包括预测观察、预测动作、预测回报以及预测序列终止信号中的一个或多个。
7.根据权利要求5或6所述的神经网络系统,其中所述输入用于接收所述当前观察和观察历史,并且其中所述神经环境模型被配置成响应于所述当前观察和所述观察历史而预测所述后续观察,其条件是来自所述策略模块的动作数据。
8.根据权利要求1至7中的任一项所述的神经网络系统,其中,所述强化学习输出级被配置成输出限定策略向量的策略数据以及用于所述当前观察的值基线数据,以确定由所述动作策略限定的动作的优势,所述策略向量限定所述动作策略。
9.根据权利要求1至8中的任一项所述的神经网络系统,其中,所述至少一个卷展编码器包括一组连续状态生成神经网络。
10.根据权利要求1至9中的任一项所述的神经网络系统,其中,一个或多个所述想象力核心包括所述环境的已学习模型。
11.一种训练根据权利要求1至9中的任一项所述的神经网络系统的方法,所述方法包括预先训练所述想象力核心的所述环境的一个或多个模型,然后使用强化学习训练所述神经网络系统的另一部分。
12.根据权利要求11所述的方法,当从属于权利要求5时,其中所述神经网络的训练包括基于所述策略模块的相应输出与给定观察的所述强化学习输出级的不匹配来训练所述策略模块。
13.一种存储指令的一个或多个计算机存储介质,所述指令在由一个或多个计算机执行时引起所述一个或多个计算机实现根据权利要求1至10中的任一项所述的系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880028596.2/1.html,转载请声明来源钻瓜专利网。