[发明专利]基于深度强化学习DDPG算法框架的策略协同选择方法在审
申请号: | 202110160581.5 | 申请日: | 2021-02-05 |
公开(公告)号: | CN112906885A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 钟颖嘉;朱清新 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 成都玖和知识产权代理事务所(普通合伙) 51238 | 代理人: | 胡琳梅 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 ddpg 算法 框架 策略 协同 选择 方法 | ||
本发明公开了一种基于深度强化学习DDPG算法框架的策略协同选择方法,通过采用策略协同的方式来选择输出action,用一对策略网络输出动作再进行评估,把评估所得的Q值作为权重,并用概率选取action。策略协同可以降低局部最优的可能性,改善过拟合,减少策略波动,增加稳定性;此外在actor网络中加入dropout,以降低耦合性,增加泛化性,提高训练速度。同时还参照TD3算法的思想,在所述actor目标网络选取动作后加入了噪声,以减少误差的大小,该方法改变了DDPG的网络结构,有效改善了DDPG的过估计问题,避免了策略网络波动过大问题。
技术领域
本发明涉及强化学习技术领域,尤其涉及一种基于深度强化学习DDPG算法框架的策略协同选择方法。
背景技术
强化学习讨论的问题是一个智能体怎么在一个复杂不确定的环境里面找到一个策略去极大化它能获得的奖励。Lillicrap等在2015年提出了DDPG(deep deterministicpolicy gradient)算法,这是一种在actor-critic框架上的深度强化学习算法(Lillicrap,T.P.,Hunt,J.J.,Pritzel,A.,Heess,N.,Erez,T.,Tassa,Y.,Silver,D.,Wierstra,D.(2015).Continuous control with deep reinforcement learning.)。DDPG是第一个有效解决许多高维连续控制任务的强化学习算法。也是一个基于actor-critic架构的确定性策略梯度算法。包含actor当前网络、actor目标网络、critic当前网络和critic目标网络。它借鉴DQN(Deep q-learning network)的技术,用经验回放机制和单独的目标网络,减少数据之间的相关性,增加算法的鲁棒性。但也因此带来了一些问题,包括过估计以及本身的策略网络波动过大等。另外文献(Addressing Function Approximation Errorin Actor-Critic Methods,Fujimoto et al,2018.Algorithm:TD3.)里描述了DDPG的一种优化TD3(Twin Delayed Deep Deterministic Policy Gradient)算法。它用了两套网络来表示不同的Q值,有效改善了DDPG的过估计问题,但是依然存在策略网络波动过大等问题。
发明内容
本发明的目的在于提供一种基于深度强化学习DDPG算法框架的策略协同选择方法,该方法改变了DDPG的网络结构,有效改善了DDPG的过估计问题,避免了策略网络波动过大问题。该方法采用了一对actor网络进行策略协同选择,并在网络中加入dropout层。在策略更新阶段采用了一对critic网络,同时在actor目标网络选取动作后加入了噪声。
为实现上述目的,本发明采用的一种基于深度强化学习DDPG算法框架的策略协同选择方法,包括下列步骤:
选定网络结构,初始化参数;
利用动作策略选择输出action;
输出action与环境探索交互,采集数据样本;
利用所述数据样本进行网络参数的训练更新。
其中,在选定网络结构,初始化参数的具体步骤如下:
选定两个actor当前网络,两个actor目标网络,两个critic当前网络和两个critic目标网络,并给actor网络添加dropout层;
使用随机参数θ1,θ2,和对两个所述critic当前网络和以及actor当前网络和进行初始化;
用参数θ′1,θ′2,和初始化对应的所述critic目标网络和以及对应的所述actor目标网络和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110160581.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于互联裸芯的数据传输事件
- 下一篇:一种40倍长工作距离光学显微镜物镜