[发明专利]基于异步或同步的深度强化学习分布式训练方法及系统有效

专利信息
申请号: 201911423249.2 申请日: 2019-12-31
公开(公告)号: CN111191728B 公开(公告)日: 2023-05-09
发明(设计)人: 李明强;唐思琦;陈思;高放;黄彬城 申请(专利权)人: 中国电子科技集团公司信息科学研究院
主分类号: G06F18/2415 分类号: G06F18/2415
代理公司: 北京中知法苑知识产权代理有限公司 11226 代理人: 李明;赵吉阳
地址: 100086 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 异步 同步 深度 强化 学习 分布式 训练 方法 系统
【说明书】:

发明涉及一种基于异步或同步的深度强化学习分布式训练方法及系统,同步启动多个CPU执行同一程序,每个CPU初始化为相同的决策函数;实时收集每个CPU三元组数据到GPU;当三元组数据收集时间达到设定时长T,则GPU计算更新策略网络参数,每个CPU基于更新的策略网络参数更新所述决策函数。本发明将CPU和GPU结合使用,显着提高了硬件利用率的效率和规模,从而提高了学习速度。本发明可以采用多GPU数据采集的方式,打破了数据的相关性,提高了数据的有效性。本发明可应用于基于强化学习的游戏AI、推荐系统、智能交通等训练场景,可充分利用现有的计算资源,提高数据的采样效率以及算法的训练速度。

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于异步或同步的深度强化学习分布式训练方法及系统。

背景技术

强化学习任务通常使用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述,具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言,强化学习主要包含四个要素:状态、动作、转移概率以及奖赏函数。

传统的强化学习局限于动作空间和样本空间都很小,且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入数据为图像,声音时,往往具有很高维度,传统的强化学习很难处理,深度强化学习就是把深度学习对于的高维输入与强化学习结合起来。深度强化学习DRL是深度学习和强化学习的结合。这两种学习方式在很大程度上是正交问题,二者结合得很好。强化学习定义了优化的目标,深度学习给出了运行机制——表征问题的方式以及解决问题的方式。将强化学习和深度学习结合在一起,寻求一个能够解决任何人类级别任务的代理,得到了能够解决很多复杂问题的一种能力——通用智能。

深度强化学习DRL自提出以来,已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo,将深度强化学习DRL成推上新的热点和高度,成为人工智能历史上一个新的里程碑。因此,深度强化学习DRL很值得大家研究。深度强化学习将有助于革新AI领域,它是朝向构建对视觉世界拥有更高级理解的自主系统迈出的一步。

深度强化学习面临很多的难点,其中包括样本利用率低、智能体训练时间长、计算力需求大、模型收敛慢等,特别是针对多智能体场景下,多智能体强化学习策略网络参数和价值网络参数搜索空间巨大,在大规模智能体场景中,随着智能体的规模越来越大,训练强化学习模型的计算力要求也在大幅度提升。

发明内容

针对训练强化学习模型的计算力不足的问题,本发明提供一种基于异步或同步的深度强化学习分布式训练方法及系统,将CPU和GPU结合使用,显着提高了硬件利用率的效率和规模,从而提高了学习速度。

为达到上述目的,本发明提供了一方面提供一种基于异步或同步的深度强化学习分布式训练方法,包括:

同步启动多个CPU执行同一程序,每个CPU初始化为相同的决策函数;

实时收集每个CPU三元组数据到GPU;

当三元组数据收集时间达到设定时长T,则GPU计算更新策略网络参数,每个CPU基于更新的策略网络参数更新所述决策函数。

进一步的,所述三元组数据为(st,at,rt),t表示时刻,st,at,rt分别表示t时刻的状态、决策以及回报。

进一步的,GPU计算更新策略网络参数θ包括:

计算:

计算:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911423249.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top