[发明专利]一种基于概率密度估计的逆强化学习方法在审
申请号: | 202110183966.3 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112990477A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 刘阳;袁博 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 王震宇 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 密度 估计 强化 学习方法 | ||
一种基于概率密度估计的逆强化学习方法,包括:初始化策略模型;获取专家示范;利用专家示范估计专家的状态分布概率密度;利用专家示范估计专家状态动作联合分布概率密度;利用策略与环境交互,收集策略状态样本;利用状态样本估计策略状态分布概率密度;利用专家状态分布概率密度以及专家状态动作联合分布概率密度还原奖励函数;利用PPO方法优化策略;重复上述步骤到模型收敛;保留模型参数,输出策略模型。该方法可以整合到各类现有的逆强化学习框架中,大大提高各类逆强化学习算法的效率;同时,可以显著降低各类逆强化学习框架的计算复杂度,提高逆强化学习框架的样本利用率,以及加快逆强化学习框架的收敛速度。
技术领域
本发明涉及人工智能技术,尤其涉及一种基于概率密度估计的逆强化学习方法。
背景技术
强化学习(reinforcement learning)是一种利用与环境的交互进行知识技能学习的人工智能框架。在RL中,智能体需要收取环境发送的奖励信号来寻找到学习目标,但是,在一些现实任务中,环境的奖励函数是难以定义的。逆强化学习学习方法就是一种典型的设计奖励信号的方法。
逆强化学习方法首先由Ng和Russel提出,逆强化学习利用专家示范的帮助来还原环境的奖励函数。
近期,通过生成对抗网络的逆强化学习方法是一种主流的逆强化学习方法。这种方法利用生成对抗网络(GAN)去模拟逆强化学习的流程,其利用生成对抗网络中的区分器来进行奖励还原,通过生成对抗网络中的生成器来进行策略学习。这种方法每进行一次奖励还原都需要收集大量的交互样本,样本利用率很低,同时,这种方法使用了对抗生成网络,这种网络的训练的计算成本是昂贵的。
需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的主要目的在于克服上述背景技术的缺陷,提供一种基于概率密度估计的逆强化学习方法,解决现有的逆强化学习框架训练效率低,计算复杂度高,收敛性能差的问题。
为实现上述目的,本发明采用以下技术方案:
一种基于概率密度估计的逆强化学习方法,包含以下步骤:
S1、利用神经网络初始化策略模型;
S2、获取专家示范样本;
S3、利用所述专家示范样本估计出专家状态分布概率密度;
S4、利用所述专家示范样本估计出专家状态动作联合分布概率密度;
S5、利用当前策略模型与环境交互,收集策略状态样本;
S6、利用所述策略状态样本估计策略状态分布概率密度;
S7、利用所述专家状态分布概率密度、所述专家状态动作联合分布概率密度以及所述策略状态分布概率密度还原奖励函数;
S8、用PPO方法结合所述奖励函数进行策略学习,优化所述策略模型;
S9、判断所述策略模型是否收敛,如果收敛进入下一步,如果不收敛重复进行步骤S5-S9;
S10、保留模型参数,输出所述策略模型。
进一步地:
步骤S2中,从人类专家或者黑盒策略中获取所述专家示范样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183966.3/2.html,转载请声明来源钻瓜专利网。