[发明专利]从动作集中选择代理执行的动作的方法、系统和存储介质有效
申请号: | 201680066409.0 | 申请日: | 2016-11-11 |
公开(公告)号: | CN108604309B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 王梓聿;若昂·费迪南多·戈梅斯德弗雷塔斯;马克·兰奇托特 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 系统、方法和装置,包括编码在计算机存储介质上的计算机程序,用于从动作集中选择待由与环境交互的代理执行的动作。在一个方面中,该系统包括对抗性深度神经网络。对抗性深度神经网络包括价值子网、优势子网和组合层。价值子网处理观察的表示以生成价值估计。优势子网处理观察的表示以对该动作集中的每个动作生成优势估计。组合层将价值估计与用于每个动作的相应的优势估计组合以生成用于该动作的相应的Q值。该系统使用用于该动作集中的动作的相应的Q值,选择响应于该观察,将由该代理执行的动作。 | ||
搜索关键词: | 动作 集中 选择 代理 执行 方法 系统 存储 介质 | ||
【主权项】:
1.一种用于从动作集中选择将由与环境交互的代理执行的动作的系统,所述系统包括:由一个或多个计算机实现的对抗性深度神经网络,所述对抗性深度神经网络包括:价值子网,所述价值子网被配置为:接收表征所述环境的当前状态的观察的表示;以及处理所述观察的所述表示以生成价值估计,所述价值估计是由所述环境处于所述当前状态而产生的预期返回的估计;优势子网,所述优势子网被配置为:接收所述观察的所述表示;以及处理所述观察的所述表示以对所述动作集中的每个动作生成相应的优势估计,所述优势估计是当所述环境处于所述当前状态时由所述代理执行所述动作而产生的返回相对于当所述环境处于所述当前状态时由所述代理执行其他动作而产生的返回的相对度量的估计;以及组合层,所述组合层被配置为:对每个动作,组合所述价值估计和所述动作的相应的优势估计以生成用于该动作的相应的Q值,其中,所述相应的Q值是当所述环境处于所述当前状态时由所述代理执行所述动作而产生的预期返回的估计;以及
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201680066409.0/,转载请声明来源钻瓜专利网。