[发明专利]利用学徒来训练动作选择神经网络在审
申请号: | 201880028844.3 | 申请日: | 2018-06-28 |
公开(公告)号: | CN110651279A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | O.皮埃特奎恩;M.里德米勒;王富民;B.皮奥特;M.维塞里克;T.A.海斯特;T.罗瑟尔;T.兰普;N.M.O.希斯;J.K.肖尔茨 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/00 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种离策略强化学习参与者‑评论者(actor‑critic)神经网络系统,被配置为从连续动作空间中选择与环境交互的代理将执行的动作以执行任务。观察定义了环境状态数据和奖励数据。系统具有参与者神经网络,学习将状态数据映射到动作数据的策略函数。评论者神经网络学习动作值(Q)函数。重放缓冲器存储状态数据,动作数据,奖励数据和新状态数据的元组。重放缓冲器还包括演示转变数据,包括来自环境中的任务的演示的元组的集合。神经网络系统被配置为使用来自重放缓冲器的存储元组来训练参与者神经网络和评论者神经网络离策略,所述重放缓冲器包括来自系统的操作和来自演示转变数据的元组。 | ||
搜索关键词: | 重放缓冲器 神经网络 元组 神经网络系统 动作数据 奖励数据 演示 评论 缓冲器 存储状态数据 环境状态数据 神经网络学习 策略函数 存储元组 环境交互 连续动作 强化学习 状态数据 新状态 映射 配置 集合 代理 观察 学习 | ||
【主权项】:
1.一种离策略强化学习参与者-评论者神经网络系统,用于选择将由与环境交互的代理执行的动作以执行任务,所述系统包括:/n第一输入,用于接收观察,所述观察包括表征环境的状态的状态数据,以及表示从在环境中用动作进行操作而获得的奖励的奖励数据;/n至少一个参与者神经网络,被耦合以接收状态数据并被配置为定义将状态数据映射到定义动作的动作数据的策略函数,其中,所述至少一个参与者神经网络具有输出以提供动作数据用于代理执行动作,并且其中所述环境响应于动作而转变到新状态;/n至少一个评论者神经网络,被耦合以接收动作数据、状态数据以及从奖励数据得到的回报数据,并被配置为定义生成误差信号的值函数;/n重放缓冲器,用于存储强化学习转变,所述强化学习转变包括来自系统的操作的操作转变数据,其中,所述操作转变数据包括所述状态数据、所述动作数据、所述奖励数据和表示所述新状态的新状态数据的元组;以及/n第二输入,用于接收定义演示转变数据的训练数据,所述演示转变数据包括来自环境中的任务的演示的所述元组的集合,其中,存储在重放缓冲器中的强化学习转变还包括演示转变数据;以及/n其中,所述神经网络系统被配置为使用误差信号并使用来自重放缓冲器的存储元组来训练至少一个参与者神经网络和至少一个评论者神经网络离策略,所述重放缓冲器包括来自操作转变数据和演示转变数据两者的元组。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880028844.3/,转载请声明来源钻瓜专利网。
- 上一篇:射频通信设备及其使用方法
- 下一篇:投影神经网络