[发明专利]从动作集中选择代理执行的动作的方法、系统和存储介质有效

专利信息
申请号: 201680066409.0 申请日: 2016-11-11
公开(公告)号: CN108604309B 公开(公告)日: 2022-06-07
发明(设计)人: 王梓聿;若昂·费迪南多·戈梅斯德弗雷塔斯;马克·兰奇托特 申请(专利权)人: 渊慧科技有限公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 李宝泉;周亚荣
地址: 英国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 动作 集中 选择 代理 执行 方法 系统 存储 介质
【说明书】:

系统、方法和装置,包括编码在计算机存储介质上的计算机程序,用于从动作集中选择待由与环境交互的代理执行的动作。在一个方面中,该系统包括对抗性深度神经网络。对抗性深度神经网络包括价值子网、优势子网和组合层。价值子网处理观察的表示以生成价值估计。优势子网处理观察的表示以对该动作集中的每个动作生成优势估计。组合层将价值估计与用于每个动作的相应的优势估计组合以生成用于该动作的相应的Q值。该系统使用用于该动作集中的动作的相应的Q值,选择响应于该观察,将由该代理执行的动作。

技术领域

本说明书涉及强化学习。

背景技术

在强化学习系统中,代理通过响应于接收表征环境的当前状态的观察,执行由强化学习系统选择的动作来与环境交互。

一些强化学习系统根据神经网络的输出,响应于接收给定观察,选择将由代理执行的动作。

神经网络是采用一个或多个非线性单元层来预测所接收输入的输出的机器学习模型。一些神经网络是除了输出层外,还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中的下一层(即下一隐藏层或输出层)的输入。网络的每一层根据相应的参数集的当前值,由所接收的输入产生输出。

发明内容

通常,本说明书中所述的主题的一个创新方面可以体现在用于从动作集中选择将由与环境交互的代理执行的动作的系统中,其中,该系统包括由一个或多个计算机实现的对抗性深度神经网络。

该对抗性深度神经网络包括:(i)价值子网,所述价值子网被配置为:接收表征所述环境的当前状态的观察的表示;以及处理所述观察的表示以生成价值估计,所述价值估计是由所述环境处于所述当前状态而产生的预期返回的估计;(ii)优势子网,所述优势子网被配置为:接收所述观察的表示;以及处理所述观察的表示以对所述动作集中的每个动作生成相应的优势估计,所述优势估计是当所述环境处于当前状态时由所述代理执行所述动作而产生的返回相对于当所述环境处于当前状态时由所述代理执行其他动作而产生的返回的相对度量的估计;以及(iii)组合层,所述组合层被配置为对每个动作,组合所述价值估计和所述动作的相应的优势估计以生成用于所述动作的相应的Q值,其中,所述所述相应的Q值是当所述环境处于当前状态时由所述代理执行所述动作而产生的预期返回的估计。

该方面的其他实施例包括使用该系统来选择将由与环境交互的代理执行的动作的方法。该方面的其他实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,分别被配置为执行所述方法的动作。一个或多个计算机的系统可以被配置为借助于安装在系统上、运行时,使系统执行动作的软件、固件、硬件或其任意组合来执行特定的操作或动作。一个或多个计算机程序可以被配置为借助于包括当由数据处理装置执行时,使该装置执行动作的指令来执行特定的操作或动作。

在一些实施方式中,所述系统包括一个或多个第二计算机以及一个或多个存储设备,所述一个或多个存储设备存储指令,所述指令当由所述一个或多个第二计算机执行时,使所述一个或多个第二计算机执行包括使用用于所述动作集中的所述动作的相应的Q值,响应于所述观察,选择将由所述代理执行的动作。

在一些实施方式中,所述对抗性深度神经网络进一步包括一个或多个初始神经网络层,所述一个或多个初始神经网络层被配置为接收所述观察;以及处理所述观察以生成所述观察的所述表示。

在一些实施方式中,所述观察是图像,以及所述一个或多个初始神经网络层是卷积神经网络层。在一些实施方式中,所述观察的表示是所述观察。

在一些实施方式中,组合所述价值估计和所述相应的优势估计包括对所述动作集中的所述动作,确定所述相应的优势估计的集中趋势的度量;通过使用所述集中趋势的度量调整用于所述动作的所述相应的优势估计,确定用于所述动作的相应的调整优势估计;以及组合用于所述动作的相应的优势估计和所述价值估计以确定用于所述动作的相应的Q值。

在一些实施方式中,所述价值子网具有第一参数集,以及所述优势子网具有不同的第二参数集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201680066409.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top