[发明专利]利用学徒来训练动作选择神经网络在审

申请号：	201880028844.3	申请日：	2018-06-28
公开（公告）号：	CN110651279A	公开（公告）日：	2020-01-03
发明（设计）人：	O.皮埃特奎恩;M.里德米勒;王富民;B.皮奥特;M.维塞里克;T.A.海斯特;T.罗瑟尔;T.兰普;N.M.O.希斯;J.K.肖尔茨	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N3/00
代理公司：	11105 北京市柳沈律师事务所	代理人：	金玉洁
地址：	英国***	国省代码：	英国;GB
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种离策略强化学习参与者‑评论者(actor‑critic)神经网络系统，被配置为从连续动作空间中选择与环境交互的代理将执行的动作以执行任务。观察定义了环境状态数据和奖励数据。系统具有参与者神经网络，学习将状态数据映射到动作数据的策略函数。评论者神经网络学习动作值(Q)函数。重放缓冲器存储状态数据，动作数据，奖励数据和新状态数据的元组。重放缓冲器还包括演示转变数据，包括来自环境中的任务的演示的元组的集合。神经网络系统被配置为使用来自重放缓冲器的存储元组来训练参与者神经网络和评论者神经网络离策略，所述重放缓冲器包括来自系统的操作和来自演示转变数据的元组。
搜索关键词：	重放缓冲器神经网络元组神经网络系统动作数据奖励数据演示评论缓冲器存储状态数据环境状态数据神经网络学习策略函数存储元组环境交互连续动作强化学习状态数据新状态映射配置集合代理观察学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种离策略强化学习参与者-评论者神经网络系统，用于选择将由与环境交互的代理执行的动作以执行任务，所述系统包括：/n第一输入，用于接收观察，所述观察包括表征环境的状态的状态数据，以及表示从在环境中用动作进行操作而获得的奖励的奖励数据；/n至少一个参与者神经网络，被耦合以接收状态数据并被配置为定义将状态数据映射到定义动作的动作数据的策略函数，其中，所述至少一个参与者神经网络具有输出以提供动作数据用于代理执行动作，并且其中所述环境响应于动作而转变到新状态；/n至少一个评论者神经网络，被耦合以接收动作数据、状态数据以及从奖励数据得到的回报数据，并被配置为定义生成误差信号的值函数；/n重放缓冲器，用于存储强化学习转变，所述强化学习转变包括来自系统的操作的操作转变数据，其中，所述操作转变数据包括所述状态数据、所述动作数据、所述奖励数据和表示所述新状态的新状态数据的元组；以及/n第二输入，用于接收定义演示转变数据的训练数据，所述演示转变数据包括来自环境中的任务的演示的所述元组的集合，其中，存储在重放缓冲器中的强化学习转变还包括演示转变数据；以及/n其中，所述神经网络系统被配置为使用误差信号并使用来自重放缓冲器的存储元组来训练至少一个参与者神经网络和至少一个评论者神经网络离策略，所述重放缓冲器包括来自操作转变数据和演示转变数据两者的元组。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201880028844.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用学徒来训练动作选择神经网络在审

专利文献下载