[发明专利]使用先行搜索来训练动作选择神经网络在审
申请号: | 201880029168.1 | 申请日: | 2018-05-28 |
公开(公告)号: | CN110582784A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | K.西蒙扬;D.西尔弗;J.施里特威泽 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08;G06N5/00 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标网络 搜索 神经网络 网络参数 未来状态 观察 计算机存储介质 计算机程序 历史数据 输出存储 训练动作 状态开始 输出 存贮器 终结 关联 代理 响应 更新 探索 | ||
1.一种训练具有多个网络参数的神经网络的方法,
其中,所述神经网络用于选择将由与环境交互的代理为了尝试实现指定的结果而执行任务所执行的动作,
其中,所述神经网络被配置为接收表征环境的状态的输入观察并且根据网络参数来处理输入观察以生成网络输出,所述网络输出包括动作选择输出,动作选择输出定义用于响应于输入观察来选择将由代理执行的动作的动作选择策略,并且
其中,该方法包括:
接收表征环境的当前状态的当前观察;
通过执行从当前状态开始直到环境到达满足一个或多个终结准则的可能未来状态为止的环境的可能未来状态的先行搜索来确定用于当前观察的目标网络输出,其中,由所述神经网络根据网络参数的当前值来引导先行搜索;
使用通过执行先行搜索所生成的目标网络输出、响应于当前观察来选择将由代理执行的动作;以及
将与当前观察相关联的目标网络输出存储在探索历史数据存贮器中,用于更新网络参数的当前值。
2.根据权利要求1所述的方法,其中,所述动作选择输出定义将由代理执行的可能动作的概率分布。
3.根据权利要求1所述的方法,其中,所述动作选择输出包括关于多个可能动作中的每一个的相应Q值,相应Q值表示如果代理响应于所述观察执行可能动作则将被接收的期望回报。
4.根据权利要求1所述的方法,其中,所述动作选择输出识别响应于所述观察将由代理执行的最优动作。
5.根据权利要求1-4中的任何一项所述的方法,其中,所述网络输出进一步包括作为由环境处于所述状态中引起的回报的估计的预测期望回报输出,并且其中,确定所述目标网络输出包括:
基于评估到交互的当前情景的终结状态为止所述任务的进度来确定目标回报。
6.根据权利要求5所述的方法,其中,所述回报取决于到所述终结状态为止是否实现了所述指定的结果。
7.根据权利要求1-6中的任何一项所述的方法,其中,所述先行搜索是状态树的树形搜索,状态树具有从表示当前状态的根节点开始的、表示环境的状态的节点。
8.根据权利要求7所述的方法,其中,执行所述先行搜索包括:向关于根节点的先验概率添加噪声,所述先验概率用于从状态树中的根节点到其他节点的遍历。
9.根据权利要求7或8中的任何一项所述的方法,其中,执行所述先行搜索包括:使用神经网络并且根据网络参数的当前值来评估在先行搜索期间遇到的状态树的叶节点。
10.根据权利要求1-9中的任何一项所述的方法,进一步包括:
从探索历史存贮器中获取训练观察和与训练观察相关联的训练目标网络输出;
使用神经网络并且根据网络参数的当前值来处理训练观察,以生成训练网络输出;
关于目标函数的网络参数来确定梯度,所述目标函数促使训练网络输出匹配训练目标网络输出;以及
根据梯度确定对网络参数的当前值的更新。
11.根据权利要求10所述的方法,其中,所述网络输出包括动作选择输出,动作选择输出定义将由代理执行的可能动作的概率分布和作为由环境处于所述状态中引起的回报的估计的预测期望回报输出,并且其中,所述目标函数是(i)和(ii)之间的加权和,其中:(i)训练目标网络输出中的概率分布与训练网络输出中的概率分布之间的差别,和(ii)训练目标网络输出中的预测期望回报输出与训练网络输出中的预测期望回报输出之间的差别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880029168.1/1.html,转载请声明来源钻瓜专利网。