[发明专利]基于异步或同步的深度强化学习分布式训练方法及系统有效

申请号：	201911423249.2	申请日：	2019-12-31
公开（公告）号：	CN111191728B	公开（公告）日：	2023-05-09
发明（设计）人：	李明强;唐思琦;陈思;高放;黄彬城	申请（专利权）人：	中国电子科技集团公司信息科学研究院
主分类号：	G06F18/2415	分类号：	G06F18/2415
代理公司：	北京中知法苑知识产权代理有限公司 11226	代理人：	李明;赵吉阳
地址：	100086 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于异步同步深度强化学习分布式训练方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于异步或同步的深度强化学习分布式训练方法及系统，同步启动多个CPU执行同一程序，每个CPU初始化为相同的决策函数；实时收集每个CPU三元组数据到GPU；当三元组数据收集时间达到设定时长T，则GPU计算更新策略网络参数，每个CPU基于更新的策略网络参数更新所述决策函数。本发明将CPU和GPU结合使用，显着提高了硬件利用率的效率和规模，从而提高了学习速度。本发明可以采用多GPU数据采集的方式，打破了数据的相关性，提高了数据的有效性。本发明可应用于基于强化学习的游戏AI、推荐系统、智能交通等训练场景，可充分利用现有的计算资源，提高数据的采样效率以及算法的训练速度。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于异步或同步的深度强化学习分布式训练方法及系统。

背景技术

强化学习任务通常使用马尔可夫决策过程(Markov Decision Process，简称MDP)来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。

传统的强化学习局限于动作空间和样本空间都很小，且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入数据为图像，声音时，往往具有很高维度，传统的强化学习很难处理，深度强化学习就是把深度学习对于的高维输入与强化学习结合起来。深度强化学习DRL是深度学习和强化学习的结合。这两种学习方式在很大程度上是正交问题，二者结合得很好。强化学习定义了优化的目标，深度学习给出了运行机制——表征问题的方式以及解决问题的方式。将强化学习和深度学习结合在一起，寻求一个能够解决任何人类级别任务的代理，得到了能够解决很多复杂问题的一种能力——通用智能。

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深度强化学习DRL很值得大家研究。深度强化学习将有助于革新AI领域，它是朝向构建对视觉世界拥有更高级理解的自主系统迈出的一步。

深度强化学习面临很多的难点，其中包括样本利用率低、智能体训练时间长、计算力需求大、模型收敛慢等，特别是针对多智能体场景下，多智能体强化学习策略网络参数和价值网络参数搜索空间巨大，在大规模智能体场景中，随着智能体的规模越来越大，训练强化学习模型的计算力要求也在大幅度提升。

发明内容

针对训练强化学习模型的计算力不足的问题，本发明提供一种基于异步或同步的深度强化学习分布式训练方法及系统，将CPU和GPU结合使用，显着提高了硬件利用率的效率和规模，从而提高了学习速度。

为达到上述目的，本发明提供了一方面提供一种基于异步或同步的深度强化学习分布式训练方法，包括：

同步启动多个CPU执行同一程序，每个CPU初始化为相同的决策函数；

实时收集每个CPU三元组数据到GPU；

当三元组数据收集时间达到设定时长T，则GPU计算更新策略网络参数，每个CPU基于更新的策略网络参数更新所述决策函数。

进一步的，所述三元组数据为(s_t,a_t,r_t)，t表示时刻，s_t,a_t,r_t分别表示t时刻的状态、决策以及回报。

进一步的，GPU计算更新策略网络参数θ包括：

计算：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载