[发明专利]使用先行搜索来训练动作选择神经网络在审
申请号: | 201880029168.1 | 申请日: | 2018-05-28 |
公开(公告)号: | CN110582784A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | K.西蒙扬;D.西尔弗;J.施里特威泽 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08;G06N5/00 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标网络 搜索 神经网络 网络参数 未来状态 观察 计算机存储介质 计算机程序 历史数据 输出存储 训练动作 状态开始 输出 存贮器 终结 关联 代理 响应 更新 探索 | ||
用于训练动作选择神经网络的方法、系统以及装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:接收表征环境的当前状态的观察;通过执行从当前状态开始直到环境到达满足一个或多个终结准则的可能未来状态为止的环境的可能未来状态的先行搜索来确定用于观察的目标网络输出,其中,由神经网络根据网络参数的当前值来引导先行搜索;使用通过执行先行搜索所生成的目标网络输出、响应于观察来选择将由代理执行的动作;以及将与观察相关联的目标网络输出存储在探索历史数据存贮器中,用于更新网络参数的当前值。
对相关申请的交叉引用
本申请要求于2017年5月26日提交的US临时专利申请号62/511,945的优先权,其公开通过引用被全部合并于本文。
背景技术
本说明书涉及选择将由强化学习代理执行的动作。
强化学习代理通过接收表征环境的当前状态的观察来与环境交互,并且作为响应,执行动作。一旦执行动作,代理就接收取决于对环境执行动作的效果的奖励。
一些强化学习系统使用神经网络以响应于接收任何给定观察来选择将由代理执行的动作。
神经网络是采用非线性单元的一个或多个层来预测用于所接收的输入的输出的机器学习模型。一些神经网络是深度神经网络,除输出层之外,其包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层、即下一隐藏层或输出层的输入。网络的每个层根据相应参数集合的当前值从接收的输入来生成输出。
发明内容
本说明书描述涉及强化学习的技术。
在一个创新方面,描述训练具有多个网络参数的神经网络的方法。神经网络用于选择将由与环境交互的代理为了在尝试实现指定结果时执行任务而要执行的动作。神经网络被配置为接收表征环境的状态的输入观察并且根据网络参数来处理输入观察以生成网络输出,网络输出包括动作选择输出,动作选择输出定义用于响应于输入观察来选择将由代理执行的动作的动作选择策略。该方法可以包括接收表征环境的当前状态的当前观察。该方法可以进一步包括通过从当前状态开始直到环境到达满足一个或多个终结准则的可能未来状态为止执行环境的可能未来状态的先行搜索,来确定用于当前观察的目标网络输出。可以由神经网络根据网络参数的当前值来引导先行搜索。该方法可以进一步包括使用通过执行先行搜索所生成的目标网络输出、响应于当前观察来选择将由代理执行的动作。该方法可以进一步包括将与当前观察相关联的目标网络输出存储在探索历史数据存贮器中,用于更新网络参数的当前值。
稍后对这样的方式的优点进行描述,但是这些优点能够包括在非常大/复杂的状态空间中和/或在存在非常稀疏的奖励信号的情况下有效地学习的能力。具体而言,这转换为强化学习系统,强化学习系统能够基本上实现关于学习任务的改善的执行,同时基本上减少训练所需要的处理功率和存储器的量。在实施方式中,该减少的处理功率能够例如通过减少在实际的时间帧中执行训练所需要的专用硬件的量来转换为显著减少的电子功率消耗。也能够促进在物理上更小的计算设备上实施高性能强化学习系统。能够在相应训练的强化学习系统的实施方式中实现类似的优点,稍后描述。
在实施方式中,先行搜索可以是通过具有表示环境的状态的节点的状态树进行的搜索,例如从表示当前状态的根节点开始。如稍后所描述的,可以以任何方便的方式组织定义树的数据。搜索可以继续,直到到达表示环境的(可能的)未来状态的搜索的终结(例如,叶节点)状态。通常,这不同于可以通过任务的执行(执行的失败)定义的或稍后以另外方式描述的交互的情景(episode)的终结状态。
在一些实施方式中,该网络或者另一个网络提供预测期望回报输出,即,由环境处于状态中引起的回报的估计。广义上,这可以被考虑为基于状态的值函数。该方法然后可以包括:当在交互的当前情景的终结状态确定时,基于任务的评估进度来确定目标回报,例如基于所实现的最终结果。这可以用于更新生成目标网络输出的神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880029168.1/2.html,转载请声明来源钻瓜专利网。