[发明专利]基于高斯过程近似模型的小车上山系统自适应控制方法有效
申请号: | 201910823151.X | 申请日: | 2019-09-02 |
公开(公告)号: | CN110531620B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 钟珊;陈雪梅;应文豪;伏玉琛;龚声蓉;钱振江 | 申请(专利权)人: | 常熟理工学院 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张俊范 |
地址: | 215500 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过程 近似 模型 小车 上山 系统 自适应 控制 方法 | ||
本发明公开了一种基于高斯过程近似模型的小车上山系统自适应控制方法,通过物理系统模拟器产生的在线样本来学习值函数和策略,在此过程中,利用这些在线样本同时学习一个基于高斯过程的环境动态性模型。在该环境动态性模型的精度满足一定精度时,能利用该基于高斯过程的模型进行离线的规划,与在线学习一起共同促进算法的收敛。本发明方法可更快地获取小车上山系统的最优控制方法。
技术领域
本发明涉及一种物理系统自适应控制方法,特别是涉及一种基于高斯过程近似模型的小车上山系统自适应控制方法。
背景技术
小车上山系统如图1所示,小车位于两座山的坡底,小车的目标是右边山头的五角星处。但是小车由于动力不足,无法直接通过油门加速来达到目的地,只能通过先到左边,让小车有足够的向前的惯性,再加上足够的加速度,让小车达到右边的目的地。对该系统的自适应控制即是控制任意时间步的小车加速度使小车在最短时间内到达右边。这个控制问题是连续状态或连续动作空间的最优控制问题。物理系统的控制问题通常可以建模为马尔科夫决策问题,即将物理系统中所有可能的状态建模为状态空间,将其所有可能发生的动作建模为动作空间,将在当前状态下施加某动作后达到的下一个状态的概率分布建模为迁移函数,将当前状态下采用某动作后得到的环境反馈称作奖赏函数。
在将物理系统建模为MDP模型后,就可以采用强化学习方法来求解最优策略,即获得物理系统的最优控制方法。强化学习方法可以分为两类:模型无关的方法和基于模型的方法。模型无关的方法通过学习通过agent与环境的交互的来获得样本,从而学习值函数和策略。该方法简单快捷,但是该方法仅利用样本学习值函数和策略,在样本利用完一次后就将其抛弃,因此,对样本的利用率极低;基于模型的方法则可以通过动态性模型进行规划来学习值函数和策略,无需真实样本的参与,因此,该方法具有较高的样本利用效率,其缺点是需要通过不断迭代贝尔曼方程,来获得问题的最优解,从而使得基于模型的方法具有较高的计算复杂度。
在大部分实际的物理系统中,模型是未知的。如果想利用模型规划的优点就必须先学习一个模型,然后再利用该模型来进行规划。然而,大部分的物理系统是连续而非离散的,即使模型已知,也无法直接用于贝尔曼方程迭代求解。同时,当学习的模型不够精确时会直接影响到规划的质量。
发明内容
本发明的目的是提供一种基于高斯过程近似模型的小车上山系统自适应控制方法,通过物理系统模拟器产生的在线样本来学习值函数和策略,在此过程中,利用这些在线样本同时学习一个基于高斯过程的环境动态性模型。在该环境动态性模型的精度满足一定精度时,利用该模型进行规划来产生模拟样本,与在线样本一起共同学习值函数和策略,从而促进算法的收敛,更快地获得系统的最优控制方法。
本发明的技术方案是这样的:一种基于高斯过程近似模型的小车上山系统自适应控制方法,包括以下步骤:
步骤(1)初始化模型,设置环境的状态空间X和动作空间U,状态采用二维向量 x=(w,v)∈X来表示,w为小车在水平方向的位置,v为小车在水平方向的速度,小车可以执行的动作为加速度u∈U;高斯过程近似模型即状态迁移函数中的临时变量为向量变量d=0、变量s=0和矩阵为状态x对应特征函数,φ(x,u)为状态动作对(x,u)的特征函数;
步骤(2)初始化超参数,设置折扣率γ,衰减因子λ,最大情节数E,高斯函数的探索方差σ2,矩阵ΔNk中对角线上的各个元素σi2,1≤i≤k,每个情节所包含的最大时间步 T,值函数和策略的学习率α,当前情节数e=1,值函数参数向量策略参数向量高斯过程近似模型参数向量规划最大的次数K;
步骤(3)初始化小车上山系统的状态空间和动作空间的范围,初始化控制成功或失败的条件,当前时间步t=1,当前状态x=x1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常熟理工学院,未经常熟理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910823151.X/2.html,转载请声明来源钻瓜专利网。