[发明专利]基于高斯过程近似模型的小车上山系统自适应控制方法有效

申请号：	201910823151.X	申请日：	2019-09-02
公开（公告）号：	CN110531620B	公开（公告）日：	2020-09-18
发明（设计）人：	钟珊;陈雪梅;应文豪;伏玉琛;龚声蓉;钱振江	申请（专利权）人：	常熟理工学院
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	张俊范
地址：	215500 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于过程近似模型小车上山系统自适应控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于高斯过程近似模型的小车上山系统自适应控制方法，通过物理系统模拟器产生的在线样本来学习值函数和策略，在此过程中，利用这些在线样本同时学习一个基于高斯过程的环境动态性模型。在该环境动态性模型的精度满足一定精度时，能利用该基于高斯过程的模型进行离线的规划，与在线学习一起共同促进算法的收敛。本发明方法可更快地获取小车上山系统的最优控制方法。

技术领域

本发明涉及一种物理系统自适应控制方法，特别是涉及一种基于高斯过程近似模型的小车上山系统自适应控制方法。

背景技术

小车上山系统如图1所示，小车位于两座山的坡底，小车的目标是右边山头的五角星处。但是小车由于动力不足，无法直接通过油门加速来达到目的地，只能通过先到左边，让小车有足够的向前的惯性，再加上足够的加速度，让小车达到右边的目的地。对该系统的自适应控制即是控制任意时间步的小车加速度使小车在最短时间内到达右边。这个控制问题是连续状态或连续动作空间的最优控制问题。物理系统的控制问题通常可以建模为马尔科夫决策问题，即将物理系统中所有可能的状态建模为状态空间，将其所有可能发生的动作建模为动作空间，将在当前状态下施加某动作后达到的下一个状态的概率分布建模为迁移函数，将当前状态下采用某动作后得到的环境反馈称作奖赏函数。

在将物理系统建模为MDP模型后，就可以采用强化学习方法来求解最优策略，即获得物理系统的最优控制方法。强化学习方法可以分为两类：模型无关的方法和基于模型的方法。模型无关的方法通过学习通过agent与环境的交互的来获得样本，从而学习值函数和策略。该方法简单快捷，但是该方法仅利用样本学习值函数和策略，在样本利用完一次后就将其抛弃，因此，对样本的利用率极低；基于模型的方法则可以通过动态性模型进行规划来学习值函数和策略，无需真实样本的参与，因此，该方法具有较高的样本利用效率，其缺点是需要通过不断迭代贝尔曼方程，来获得问题的最优解，从而使得基于模型的方法具有较高的计算复杂度。

在大部分实际的物理系统中，模型是未知的。如果想利用模型规划的优点就必须先学习一个模型，然后再利用该模型来进行规划。然而，大部分的物理系统是连续而非离散的，即使模型已知，也无法直接用于贝尔曼方程迭代求解。同时，当学习的模型不够精确时会直接影响到规划的质量。

发明内容

本发明的目的是提供一种基于高斯过程近似模型的小车上山系统自适应控制方法，通过物理系统模拟器产生的在线样本来学习值函数和策略，在此过程中，利用这些在线样本同时学习一个基于高斯过程的环境动态性模型。在该环境动态性模型的精度满足一定精度时，利用该模型进行规划来产生模拟样本，与在线样本一起共同学习值函数和策略，从而促进算法的收敛，更快地获得系统的最优控制方法。

本发明的技术方案是这样的：一种基于高斯过程近似模型的小车上山系统自适应控制方法，包括以下步骤：

步骤(1)初始化模型，设置环境的状态空间X和动作空间U，状态采用二维向量 x＝(w,v)∈X来表示，w为小车在水平方向的位置，v为小车在水平方向的速度，小车可以执行的动作为加速度u∈U；高斯过程近似模型即状态迁移函数中的临时变量为向量变量d＝0、变量s＝0和矩阵为状态x对应特征函数，φ(x,u)为状态动作对(x,u)的特征函数；

步骤(2)初始化超参数，设置折扣率γ，衰减因子λ，最大情节数E，高斯函数的探索方差σ²，矩阵ΔN_k中对角线上的各个元素σ_i²,1≤i≤k，每个情节所包含的最大时间步 T，值函数和策略的学习率α，当前情节数e＝1，值函数参数向量策略参数向量高斯过程近似模型参数向量规划最大的次数K；

步骤(3)初始化小车上山系统的状态空间和动作空间的范围，初始化控制成功或失败的条件，当前时间步t＝1，当前状态x＝x₁；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于常熟理工学院，未经常熟理工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910823151.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种流动控制的实现方法
下一篇：一种面向混合攻击下的信息物理系统可靠控制方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于高斯过程近似模型的小车上山系统自适应控制方法有效

专利文献下载