[发明专利]一种基于概率密度估计的逆强化学习方法在审
申请号: | 202110183966.3 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112990477A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 刘阳;袁博 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 王震宇 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 密度 估计 强化 学习方法 | ||
1.一种基于概率密度估计的逆强化学习方法,其特征在于,包含以下步骤:
S1、利用神经网络初始化策略模型;
S2、获取专家示范样本;
S3、利用所述专家示范样本估计出专家状态分布概率密度;
S4、利用所述专家示范样本估计出专家状态动作联合分布概率密度;
S5、利用当前策略模型与环境交互,收集策略状态样本;
S6、利用所述策略状态样本估计策略状态分布概率密度;
S7、利用所述专家状态分布概率密度、所述专家状态动作联合分布概率密度以及所述策略状态分布概率密度还原奖励函数;
S8、用PPO方法结合所述奖励函数进行策略学习,优化所述策略模型;
S9、判断所述策略模型是否收敛,如果收敛进入下一步,如果不收敛重复进行步骤S5-S9;
S10、保留模型参数,输出所述策略模型。
2.如权利要求1所述的基于概率密度估计的逆强化学习方法,其特征在于,步骤S2中,从人类专家或者黑盒策略中获取所述专家示范样本。
3.如权利要求1或2所述的基于概率密度估计的逆强化学习方法,其特征在于,所述专家示范样本的形式为{(s1,a1),(s2,a2),(si,ai),…}e,{}e是指专家示范的集合,每一个(si,ai)中的si代表了一个状态,ai代表了专家在这个状态下的选择做的动作;步骤S3中,利用{}e中的s,即{s1,s2,si…}e来进行专家状态分布概率密度估计。
4.如权利要求3所述的基于概率密度估计的逆强化学习方法,其特征在于,步骤S3中,利用所述专家示范样本估计出专家状态分布概率密度包括:
计算均值其中N是集合{}e的大小,计算方差∑=E((si-μ)(si-μ)T);
然后,用所述均值和所述方差构建一个高斯分布,将所述高斯分布作为专家状态的分布,来估计其概率密度,记这个分布的概率密度函数为
5.如权利要求3或4所述的基于概率密度估计的逆强化学习方法,其特征在于,步骤S4中,利用所述专家示范样本估计出专家状态动作联合分布概率密度包括:
所述专家状态动作联合分布的概率密度函数为
当动作空间连续的时候,Xi=(si,ai),{}e变成{X1,X2,Xi,…},使用与所述专家状态分布概率密度估计相同的方法估计出所述专家状态动作联合分布概率密度;
当动作空间是离散的时候,使用一个SVM分类器估计出P(a|s),再利用估计出所述专家状态动作联合分布概率密度。
6.如权利要求1至5任一项所述的基于概率密度估计的逆强化学习方法,其特征在于,步骤S5中,按照策略模型与环境交互预定的时间,记录交互的各个状态si,收集到集合中{s1,s2,si…}p。
7.如权利要求6所述的基于概率密度估计的逆强化学习方法,其特征在于,步骤S6中,利用所述策略状态样本估计策略状态分布概率密度包括:使用与所述专家状态分布概率密度估计相同的方法,{}e改成{}p,估计出策略状态分布概率密度函数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183966.3/1.html,转载请声明来源钻瓜专利网。