[发明专利]基于并行架构的内在奖励强化学习方法在审

申请号：	202111598134.4	申请日：	2021-12-24
公开（公告）号：	CN114266360A	公开（公告）日：	2022-04-01
发明（设计）人：	杨思明;曹江;高原;郭洋;王平;王景;王晓楠	申请（专利权）人：	中国人民解放军军事科学院战争研究院
主分类号：	G06N20/00	分类号：	G06N20/00;G06N3/04;G06N3/08
代理公司：	上海洞见未来专利代理有限公司 31467	代理人：	苗绘
地址：	100091 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于并行架构的内在奖励强化学习方法，包含如下步骤：执行模块与模拟环境交互，获取一整幕经验数据并存入缓存组件；同步学习模块的最近更新的策略；取出定量的经验数据进行评估，获得奖励值；对经验数据的状态价值函数进行估计，获得内部状态价值函数与外部状态价值函数；处理内部状态价值函数与外部状态价值函数，获得总状态价值函数并改写成近似状态价值函数；外部的智能体对预测网络的参数进行优化，并更新策略网络的当前策略，获得新策略；执行模块更新新策略。本发明解决了现有技术中价值函数估计不准、收敛到局部最优策略的缺陷，避免了优化结果出现偏差的问题，具有更高的单位时隙吞吐率、更好的性能和更快的学习速度。
搜索关键词：	基于并行架构内在奖励强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院战争研究院，未经中国人民解放军军事科学院战争研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202111598134.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于并行架构的内在奖励强化学习方法在审

专利文献下载