[发明专利]用于分布式强化学习的方法、程序产品和存储介质有效

申请号：	201880025072.8	申请日：	2018-04-16
公开（公告）号：	CN110520868B	公开（公告）日：	2023-06-02
发明（设计）人：	W.C.达布尼;M.金德罗-贝尔-梅尔	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/006	分类号：	G06N3/006;G06N3/0464;G06N3/047;G06N3/084;G06N7/01;G06N3/098;G06N3/092
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于分布式强化学习方法程序产品存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种由一个或多个数据处理装置执行的用于选择将由与环境交互的强化学习智能体执行的动作的方法，所述方法包括：

接收表征所述环境的当前状态的当前观察；

对于可由与所述环境交互的所述智能体执行的多个动作中的每个动作：

使用具有多个网络参数的分布式Q网络处理所述动作和所述当前观察，

其中所述分布式Q网络是深度神经网络，其被配置为根据所述网络参数的当前值来处理所述动作和所述当前观察，以生成网络输出，所述网络输出包括多个数值，所述多个数值共同限定针对所述动作-当前观察对的可能的Q回报之上的概率分布，其中所述网络输出包括：(i)针对所述动作-当前观察对的多个可能的Q回报中的每一个可能的Q回报的相应得分，或(ii)针对所述动作-当前观察对的可能的Q回报之上的参数概率分布的多个参数中的每一个参数的相应值，和

其中每个可能的Q回报是从响应于所述当前观察执行所述动作的所述智能体得到的回报的估计，并且

相对于针对所述动作–当前观察对的概率分布，确定所述可能的Q回报的集中趋势的度量；以及

使用所述动作的所述集中趋势的度量，从响应于所述当前观察将由所述智能体执行的多个可能动作中选择动作。

2.根据权利要求1所述的方法，其中选择将由所述智能体执行的动作包括：

选择具有最高集中趋势的度量的动作。

3.根据权利要求1所述的方法，其中选择将由所述智能体执行的动作包括：

选择概率为1–ε的具有最高集中趋势的度量的动作，并且从多个动作中随机地选择选择概率为ε的动作。

4.根据权利要求1所述的方法，其中所述集中趋势的度量是所述可能的Q回报的平均值。

5.根据权利要求4所述的方法，其中相对于所述概率分布确定所述可能的Q回报的平均值包括：

从输出值确定所述多个可能的Q回报中的每一个可能的Q回报的相应概率；

用所述可能的Q回报的概率对每个可能的Q回报进行加权；以及

通过对所述加权的可能的Q回报求和来确定所述平均值。