[发明专利]从动作集中选择代理执行的动作的方法、系统和存储介质有效
申请号: | 201680066409.0 | 申请日: | 2016-11-11 |
公开(公告)号: | CN108604309B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 王梓聿;若昂·费迪南多·戈梅斯德弗雷塔斯;马克·兰奇托特 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动作 集中 选择 代理 执行 方法 系统 存储 介质 | ||
1.一种用于从动作集中选择将由与环境交互的代理执行的动作的系统,所述代理是强化学习代理并且所述环境是模拟环境或真实世界环境,所述代理包括模拟用户、模拟车辆、模拟飞行器、机器人、自动车辆和半自动车辆中的一种,所述系统包括由一个或多个计算机实现的对抗性深度神经网络,所述对抗性深度神经网络包括价值子网、优势子网以及组合层,所述系统被配置为接收与所述模拟环境或真实世界环境的当前状态相关联的输入数据,对所述动作集中的每个动作生成与所述模拟环境或真实世界环境的所述当前状态相关联的Q值,以及基于所述动作集中的所述动作的相应的Q值来为所述代理选择动作以与所述模拟环境或真实世界环境交互,其中:
所述价值子网被配置为:
接收表征所述环境的当前状态的观察的表示;以及
处理所述观察的所述表示以生成价值估计,所述价值估计是由所述环境处于所述当前状态而产生的预期返回的估计;
所述优势子网被配置为:
接收所述观察的所述表示;以及
处理所述观察的所述表示以对所述动作集中的每个动作生成相应的优势估计,所述优势估计是当所述环境处于所述当前状态时由所述代理执行所述动作而产生的返回相对于当所述环境处于所述当前状态时由所述代理执行其他动作而产生的返回的相对度量的估计;以及
所述组合层被配置为:对每个动作,组合所述价值估计和所述动作的相应的优势估计以生成用于该动作的相应的Q值,其中,所述相应的Q值是当所述环境处于所述当前状态时由所述代理执行所述动作而产生的预期返回的估计。
2.如权利要求1所述的系统,其中,所述对抗性深度神经网络进一步包括一个或多个初始神经网络层,所述一个或多个初始神经网络层被配置为:
接收所述观察;以及
处理所述观察以生成所述观察的所述表示。
3.如权利要求2所述的系统,其中,所述观察是图像,以及其中,所述一个或多个初始神经网络层是卷积神经网络层。
4.如权利要求1所述的系统,其中,所述观察的所述表示是所述观察。
5.如权利要求1所述的系统,其中,对每个动作,组合所述价值估计和所述相应的优势估计包括:
对该动作确定所述相应的优势估计的集中趋势的度量;
通过使用所述集中趋势的度量来调整用于该动作的相应的优势估计,确定用于该动作的相应的调整优势估计;以及
组合用于该动作的相应的优势估计和所述价值估计以确定用于该动作的相应的Q值。
6.如权利要求1所述的系统,其中,所述价值子网具有第一参数集,以及所述优势子网具有不同的第二参数集。
7.如权利要求1至6中的任一项所述的系统,其中,选择动作包括:
选择来自所述动作集的具有最高Q值的动作。
8.如权利要求1至6中的任一项所述的系统,其中,选择动作包括:
以概率ε从所述动作集中选择随机动作;以及
以概率1-ε选择具有最高Q值的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680066409.0/1.html,转载请声明来源钻瓜专利网。