[发明专利]基于并行架构的内在奖励强化学习方法在审
申请号: | 202111598134.4 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114266360A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 杨思明;曹江;高原;郭洋;王平;王景;王晓楠 | 申请(专利权)人: | 中国人民解放军军事科学院战争研究院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 上海洞见未来专利代理有限公司 31467 | 代理人: | 苗绘 |
地址: | 100091 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 架构 内在 奖励 强化 学习方法 | ||
本发明公开了一种基于并行架构的内在奖励强化学习方法,包含如下步骤:执行模块与模拟环境交互,获取一整幕经验数据并存入缓存组件;同步学习模块的最近更新的策略;取出定量的经验数据进行评估,获得奖励值;对经验数据的状态价值函数进行估计,获得内部状态价值函数与外部状态价值函数;处理内部状态价值函数与外部状态价值函数,获得总状态价值函数并改写成近似状态价值函数;外部的智能体对预测网络的参数进行优化,并更新策略网络的当前策略,获得新策略;执行模块更新新策略。本发明解决了现有技术中价值函数估计不准、收敛到局部最优策略的缺陷,避免了优化结果出现偏差的问题,具有更高的单位时隙吞吐率、更好的性能和更快的学习速度。
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于并行架构的内在奖励强化学习方法。
背景技术
现有技术中,主流的并行强化学习使用的是Impala架构,该架构由多个worker模块和一个learner模块构成,前者负责根据策略与环境进行交互,从而收集经验数据。后者利用众多worker模块收集到的数据优化策略网络和价值预测网络,最终达到更新智能体策略的效果。一个worker模块在使用策略完成一轮交互,并将经验数据存到缓存之后,不会等待learner模块完成策略更新后,再同步learner的最新策略,而是利用现有的learner模块的最新策略进行同步,使用该策略开始新一轮的交互。
现有技术的缺陷在于,智能体的探索策略依然是采用ε-greedy方法。这种没有针对性的探索方法在高维状态动作空间或奖励稀疏的环境下,中会出现收敛到局部最优策略,或无法收敛的情况。
发明内容
根据本发明实施例,提供了一种基于并行架构的内在奖励强化学习方法,包含如下步骤:
创建若干个执行模块,执行模块与模拟环境进行交互,获取一整幕经验数据;
创建学习模块,将一整幕经验数据存入学习模块的缓存组件中;
同步学习模块的最近更新的策略;
学习模块从缓存组件中取出定量的经验数据并对定量的经验数据进行评估,获得奖励值;
对经验数据的状态价值函数进行估计,获得内部状态价值函数与外部状态价值函数;
处理内部状态价值函数与外部状态价值函数,获得总状态价值函数;
使用V-trace方法并通过重要性采样的方式处理总状态价值函数,获得近似状态价值函数;
外部的智能体使用学习模块的目标网络与学习模块的预测网络的预测均方误差作为损失函数,对预测网络的参数进行优化;
智能体使用价值函数估计值作为损失函数,并通过策略梯度方法更新学习模块的策略网络的当前策略,获得新策略;
执行模块更新新策略。
进一步,执行模块使用当前策略与模拟环境进行交互。
进一步,经验数据包含:动作初始观测到的状态、当前执行动作,外部奖励值、环境转移到的下一个状态与终止条件。
进一步,学习模块使用目标网络和预测网络对定量的经验数据进行评估,获得奖励值。
进一步,处理内部状态价值函数与外部状态价值函数,获得总状态价值函数的方法为:
V=Vθi(st)+Vθe(st)
V为总状态价值函数,Vθi(st)为内部状态价值函数,Vθe(st)为外部状态价值函数。
进一步,处理总状态价值函数V,获得近似状态价值函数Vm的方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院战争研究院,未经中国人民解放军军事科学院战争研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111598134.4/2.html,转载请声明来源钻瓜专利网。