[发明专利]利用学徒来训练动作选择神经网络在审
申请号: | 201880028844.3 | 申请日: | 2018-06-28 |
公开(公告)号: | CN110651279A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | O.皮埃特奎恩;M.里德米勒;王富民;B.皮奥特;M.维塞里克;T.A.海斯特;T.罗瑟尔;T.兰普;N.M.O.希斯;J.K.肖尔茨 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/00 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重放缓冲器 神经网络 元组 神经网络系统 动作数据 奖励数据 演示 评论 缓冲器 存储状态数据 环境状态数据 神经网络学习 策略函数 存储元组 环境交互 连续动作 强化学习 状态数据 新状态 映射 配置 集合 代理 观察 学习 | ||
1.一种离策略强化学习参与者-评论者神经网络系统,用于选择将由与环境交互的代理执行的动作以执行任务,所述系统包括:
第一输入,用于接收观察,所述观察包括表征环境的状态的状态数据,以及表示从在环境中用动作进行操作而获得的奖励的奖励数据;
至少一个参与者神经网络,被耦合以接收状态数据并被配置为定义将状态数据映射到定义动作的动作数据的策略函数,其中,所述至少一个参与者神经网络具有输出以提供动作数据用于代理执行动作,并且其中所述环境响应于动作而转变到新状态;
至少一个评论者神经网络,被耦合以接收动作数据、状态数据以及从奖励数据得到的回报数据,并被配置为定义生成误差信号的值函数;
重放缓冲器,用于存储强化学习转变,所述强化学习转变包括来自系统的操作的操作转变数据,其中,所述操作转变数据包括所述状态数据、所述动作数据、所述奖励数据和表示所述新状态的新状态数据的元组;以及
第二输入,用于接收定义演示转变数据的训练数据,所述演示转变数据包括来自环境中的任务的演示的所述元组的集合,其中,存储在重放缓冲器中的强化学习转变还包括演示转变数据;以及
其中,所述神经网络系统被配置为使用误差信号并使用来自重放缓冲器的存储元组来训练至少一个参与者神经网络和至少一个评论者神经网络离策略,所述重放缓冲器包括来自操作转变数据和演示转变数据两者的元组。
2.根据权利要求1所述的系统,其中,所述奖励包括稀疏奖励,所述稀疏奖励具有取决于环境的状态的多个离散值。
3.根据权利要求1或2所述的系统,其中,仅环境的状态的少数子集提供奖励。
4.根据权利要求1,2或3所述的系统,还包括:采样选择系统,用于根据采样概率对强化学习转变进行采样,其中,所述采样概率优先对演示转变数据元组进行采样。
5.根据权利要求1至4中的任一项所述的系统,其中,所述回报数据包括奖励数据和来自评论者神经网络的值的组合,所述评论者神经网络的值是从使用参与者神经网络所选择的动作的(n-1)步向前展示而获得的;并且其中,所述系统被配置为采用至少两个不同的n值来训练网络。
6.根据权利要求1至5中的任一项所述的系统,被配置为使用包括1步回报和n步回报的混合的回报数据来训练评论者神经网络。
7.根据权利要求1至6中任一项所述的系统,包括学习参与者神经网络和目标参与者神经网络以及学习评论者神经网络和目标评论者神经网络,其中,所述神经网络系统被配置为使用误差信号更新学习评论者神经网络离策略,其中,从目标评论者神经网络、目标参与者神经网络以及操作转变数据和演示转变数据的存储元组得到误差信号;其中,所述系统被配置为使用确定性策略梯度来更新学习参与者神经网络,所述确定性策略梯度包括使用操作转变数据和演示转变数据的存储元组评估的学习评论者神经网络的输出的梯度与学习参与者神经网络的输出的梯度的乘积;并且其中,所述系统被配置为按照一定间隔使用学习参与者神经网络来更新目标参与者神经网络的权重,并使用学习评论者神经网络来更新目标评论者神经网络的权重。
8.根据权利要求1至7中的任一项所述的系统,其中,所述训练数据包括来自机械系统的操纵的运动学教导数据。
9.根据权利要求1至8中的任一项所述的系统,还包括安全控制器,用于对动作数据施加安全性或其他约束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880028844.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:射频通信设备及其使用方法
- 下一篇:投影神经网络