[发明专利]从动作集中选择代理执行的动作的方法、系统和存储介质有效

申请号：	201680066409.0	申请日：	2016-11-11
公开（公告）号：	CN108604309B	公开（公告）日：	2022-06-07
发明（设计）人：	王梓聿;若昂·费迪南多·戈梅斯德弗雷塔斯;马克·兰奇托特	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李宝泉;周亚荣
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	动作集中选择代理执行方法系统存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于从动作集中选择将由与环境交互的代理执行的动作的系统，所述代理是强化学习代理并且所述环境是模拟环境或真实世界环境，所述代理包括模拟用户、模拟车辆、模拟飞行器、机器人、自动车辆和半自动车辆中的一种，所述系统包括由一个或多个计算机实现的对抗性深度神经网络，所述对抗性深度神经网络包括价值子网、优势子网以及组合层，所述系统被配置为接收与所述模拟环境或真实世界环境的当前状态相关联的输入数据，对所述动作集中的每个动作生成与所述模拟环境或真实世界环境的所述当前状态相关联的Q值，以及基于所述动作集中的所述动作的相应的Q值来为所述代理选择动作以与所述模拟环境或真实世界环境交互，其中：

所述价值子网被配置为：

接收表征所述环境的当前状态的观察的表示；以及

处理所述观察的所述表示以生成价值估计，所述价值估计是由所述环境处于所述当前状态而产生的预期返回的估计；

所述优势子网被配置为：

接收所述观察的所述表示；以及

处理所述观察的所述表示以对所述动作集中的每个动作生成相应的优势估计，所述优势估计是当所述环境处于所述当前状态时由所述代理执行所述动作而产生的返回相对于当所述环境处于所述当前状态时由所述代理执行其他动作而产生的返回的相对度量的估计；以及

所述组合层被配置为：对每个动作，组合所述价值估计和所述动作的相应的优势估计以生成用于该动作的相应的Q值，其中，所述相应的Q值是当所述环境处于所述当前状态时由所述代理执行所述动作而产生的预期返回的估计。

2.如权利要求1所述的系统，其中，所述对抗性深度神经网络进一步包括一个或多个初始神经网络层，所述一个或多个初始神经网络层被配置为：

接收所述观察；以及

处理所述观察以生成所述观察的所述表示。

3.如权利要求2所述的系统，其中，所述观察是图像，以及其中，所述一个或多个初始神经网络层是卷积神经网络层。

4.如权利要求1所述的系统，其中，所述观察的所述表示是所述观察。