[发明专利]一种统一的基于好奇心驱动的强化学习方法在审
申请号: | 202010428975.X | 申请日: | 2020-05-20 |
公开(公告)号: | CN111931943A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 李玺;皇福献;崔家宝;李伟超 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统一 基于 好奇心 驱动 强化 学习方法 | ||
本发明公开了一种统一的基于好奇心驱动的强化学习方法,用于智能体在奖励稀疏的情况下能够快速有效地学习策略。具体包括如下步骤:1)通过注意力模块获得状态可靠的特征表达;2)使用状态新颖性估计和前向动态预测来估计状态以及状态动作对的探索程度,即初步估计的内部奖励;3)使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;4)将不同类型的内部奖励进行融合,得到更加准确、鲁棒的内部奖励;5)智能体使用和环境交互产生的经验数据以及估计的内部奖励进行策略的学习。本发明适用于强化学习领域的稀疏奖励问题,能够在外部奖励比较稀疏或者不存在的情况下快速有效地学习策略。
技术领域
本发明属于强化学习领域,是机器学习领域的一个分支,特别地涉及一种统一的基于好奇心驱动的强化学习方法。
背景技术
奖励函数是强化学习过程中很重要的一个因素,智能体是通过最大化累计奖励来学习策略的。但是在很多场景中,奖励往往是稀疏的,例如在围棋比赛中,只有最终才能收到赢或输的结果,中间的很多个动作无法获得及时的奖励,这给强化学习带来很大的挑战。传统方法一般是结合具体的任务,手工设计相应的奖励函数,但是这种方法对专业领域的知识要求很高,而且需要繁琐的调试,且很难在不同的任务之间进行迁移。
现有的基于好奇心驱动的方法主要根据单一的度量方式,比如下一时刻状态的新颖程度或者当前状态动作对的新颖程度,来估计当前样本的内部奖励。而这种方式并没有从根本上解决三个问题:1.不同的好奇心驱动的方法关注的对象不同,使得估计出来的内部奖励无法充分有效地引导智能体进行探索和学习;2.由于状态空间很大,且存在很多与学习任务无关背景信息,这些信息会影响智能体对环境的感知能力,从而影响其学习策略;3.由于价值函数在状态空间是连续的,仅仅使用一个样本对相应对状态进行探索程度的估计可能会使得估计的结果不准确,从而影响学习的效率。
发明内容
为解决上述问题,本发明的目的在于提供一种统一的基于好奇心驱动的强化学习方法。该方法基于注意力模块对智能体所处环境有效的特征表达,利用加权平均的方法对使用状态新颖性估计和前向动态预测来估计对状态以及状态动作对的探索程度估计的内部奖励进行平滑,接着对上述两种方案估计的内部奖励进行融合,最后结合估计的内部奖励进行学习策略,从而提高智能体的学习速率和质量。
为实现上述目的,本发明的技术方案为:
一种统一的基于好奇心驱动的强化学习方法,其包括以下步骤:
S1、学习注意力模块,并通过包含注意力模块的特征提取网络获取状态的特征表达;
S2、使用状态新颖性估计分别对下一个状态和当前状态的探索程度进行估计,再使用前向动态预测估计状态动作对的探索程度,估计得到的三种探索程度即为初步估计的内部奖励;
S3、使用状态空间中的多个样本对估计出的内部奖励进行平滑处理;
S4、将平滑处理后的不同类型的内部奖励进行融合,得到更加准确和鲁棒的内部奖励;
S5、智能体使用和环境交互产生的经验数据以及融合后的内部奖励进行策略的学习。
基于上述技术方案,本发明的各步骤还可以进一步采用以下优选实现方式。
作为优选,步骤S1中所述的注意力模块为特征提取网络的一部分,通过该模块可以弱化无关的特征,从而获得关于状态更准确的特征表达;状态st经过注意力模块之后,获得的特征表达记为
作为优选,步骤S2中所述的状态新颖性估计对下一步的状态st+1的探索程度进行估计,具体计算如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010428975.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:非概率混合可靠度指数的去嵌套分析方法
- 下一篇:水性环氧涂料的制备方法