[发明专利]训练动作选择神经网络在审
申请号: | 201780067832.7 | 申请日: | 2017-11-03 |
公开(公告)号: | CN110235148A | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 王梓聿;尼古拉斯·曼弗雷德·奥托·黑斯;维克托雷·巴波斯特;沃洛季米尔·姆尼赫;雷米·穆尼奥斯;科拉伊·卡武克曲奥卢;若昂·费迪南多·戈梅斯·德弗雷塔斯 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 训练动作 回放 存储器 计算机存储介质 存储器存储 计算机程序 采样轨迹 策略参数 调整策略 动作选择 离线策略 强化学习 评判 代理 | ||
用于训练动作选择神经网络的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述方法的一种包括维持回放存储器,该回放存储器存储由于代理与环境的交互而生成的轨迹;并且训练具有关于回放存储器中的轨迹的策略参数的动作选择神经网络,其中,训练动作选择神经网络包括:从回放存储器中采样轨迹;并且通过使用离线策略行动器评判强化学习技术在轨迹上训练动作选择神经网络来调整策略参数的当前值。
技术领域
本说明书涉及强化学习。
背景技术
在强化学习系统中,代理通过响应于接收表征环境的当前状态的观察而执行由强化学习系统选择的动作来与环境交互。
一些强化学习系统根据神经网络的输出选择由代理响应于接收给定观察而执行的动作。
神经网络是机器学习模型,其采用一层或多层非线性单元来对于接收的输入预测输出。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。
发明内容
本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的强化学习系统,其选择要由与环境交互的代理执行的动作。通常,系统使用动作选择策略神经网络来选择要响应于表征环境的状态的观察而执行的动作。因此,为了动作选择策略神经网络可以有效地用于选择动作,系统训练由于代理与环境的交互而生成的轨迹上的动作选择策略神经网络。特别地,系统可以从回放存储器中采样轨迹,然后通过使用离线策略(off-policy)行动器评判强化学习技术在采样的轨迹上训练神经网络来调整神经网络的参数的当前值。
因此,在一个方面,一种方法,特别是强化学习的方法,包括维持回放存储器,所述回放存储器存储由于代理与环境的交互而生成的轨迹,每个轨迹包括在多个时间步中的每个时间步的相应动作选择数据。在每个时间步的所述动作选择数据可以识别以下部分中的一个或多个:表征所述环境的状态的观察;由代理响应于所述观察而执行的动作;响应于所述代理执行所述动作而接收到的奖励;以及,至少在响应于所述观察而确定执行哪个动作时分配给所执行的动作的动作选择分值。所述方法然后可以涉及:训练具有关于所述回放存储器中的所述轨迹的策略参数(这里称为策略参数)的动作选择神经网络。所述动作选择神经网络被配置为:接收表征所述环境的状态的观察;以及,处理所述观察以生成网络输出,所述网络输出定义能够由所述代理响应于所述观察而执行的可能动作上的分值分布。训练所述动作选择神经网络可以包括:从所述回放存储器中采样轨迹;以及,通过优选地使用离线策略行动器评判强化学习技术在所述轨迹上训练所述动作选择神经网络来调整所述策略参数的当前值。
动作集合可以是有限的,定义离散的动作空间或已被离散化的连续动作空间,或者可以是连续动作空间中的动作。在动作空间离散或离散化的情况下,分值分布可以是由具有用于可能动作的元素的概率向量定义的分类分布。在动作空间是连续的情况下,分值分布可以由一个或多个连续分布的一个或多个参数定义,例如分布的均值和协方差,例如高斯分布。
从广义上讲,行动器评判技术采用行动器神经网络来提供动作分值,并且使用评判神经网络来提供可由行动器神经网络使用的状态或可能动作的一个或多个值。离线策略学习使用存储的经验来学习策略。稍后将描述一些离线策略性行动器评判强化学习技术的实现。
该方法的实现的一些优点包括更快和更准确的学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780067832.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于瓶的包括电子芯片的标签,以及相关的生产方法
- 下一篇:神经情节控制