[发明专利]基于高斯过程近似模型的小车上山系统自适应控制方法有效

申请号：	201910823151.X	申请日：	2019-09-02
公开（公告）号：	CN110531620B	公开（公告）日：	2020-09-18
发明（设计）人：	钟珊;陈雪梅;应文豪;伏玉琛;龚声蓉;钱振江	申请（专利权）人：	常熟理工学院
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	张俊范
地址：	215500 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于过程近似模型小车上山系统自适应控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，包括以下步骤：

步骤(1)初始化模型，设置环境的状态空间X和动作空间U，状态采用二维向量x＝(w,v)∈X来表示，w为小车在水平方向的位置，v为小车在水平方向的速度，小车可以执行的动作为加速度u∈U；高斯过程近似模型即状态迁移函数中的临时变量为向量变量d＝0、变量s＝0和矩阵为状态x对应特征函数，φ(x,u)为状态动作对(x,u)的特征函数；

步骤(2)初始化超参数，设置折扣率γ，衰减因子λ，最大情节数E，高斯函数的探索方差σ²，矩阵ΔN_k中对角线上的各个元素σ_i²,1≤i≤k，每个情节所包含的最大时间步T，值函数和策略的学习率α，当前情节数e＝1，值函数参数向量策略参数向量高斯过程近似模型参数向量规划最大的次数K；

步骤(3)初始化小车上山系统的状态空间和动作空间的范围，初始化控制成功或失败的条件，当前时间步t＝1，当前状态x＝x₁；

步骤(4)以当前最优动作u^*作为高斯函数的均值，以步骤(2)中指定的探索方差σ²作为方差建立高斯方程N(u^*,σ²)，利用高斯方程产生当前要执行的动作u_t；

步骤(5)在当前状态x_t下，执行步骤(4)中确定的动作u_t，并利用系统的动态性方程得到小车的下一个状态x_t+1，同时利用奖赏函数获得立即奖赏r_t+1，构成样本(x_t,u_t,x_t+1,r_t+1)；

步骤(6)利用样本计算值函数的TD误差δ_t：δ_t＝r_t+1+γV(x_t+1,ν_t)-V(x_t,ν_t)，其中，ν_t表示状态x_t对应的值函数的参数，V(x_t+1,ν_t)表示状态x_t+1对应的值函数，V(x_t,ν_t)表示状态x_t对应的值函数；

步骤(7)更新值函数的资格迹e_t+1：

步骤(8)更新值函数参数v_t+1：v_t+1←v_t+αδ_te_t+1；

步骤(9)更新策略参数θ_t+1：θ_t+1←θ_t+αδ_t(u^*-u_t)；

步骤(10)利用该样本来更新模型中间公式p_t+1、d_t+1、s_t+1和P_t+1；

其中，u_t+1表示根据步骤(4)可以得到在状态x_t+1处执行的动作，u_t表示根据步骤(4)可以得到在状态x_t时间步执行的动作，σ_t为在时间步t时，高斯过程近似模型的标准差；

步骤(11)采用当前样本更新状态迁移函数参数向量：

步骤(12)更新当前状态：x＝x_t+1，判断x_t+1中的状态分量w_t+1是否控制成功条件：

如果是，则令e＝e+1，并判断当前情节e＝＝E是否成立：

如果达到，则转入步骤(19)；

否则，转入步骤(13)；

步骤(13)初始化规划次数k＝1，规划过程的初始状态x′_k＝x₁；

步骤(14)在当前状态为x′_k时，根据步骤(4)选择要执行的动作u_k，然后根据高斯过程近似模型预测下一个状态：其中，Φ_k＝(φ(x′₁,u₀),φ(x′₂,u₁),...,φ(x′_k,u_t))^T为到t时间步处的状态特征矩阵，β为高斯过程的模型参数，ΔN_t∈R^t×t是到t时间步为止位置分量满足高斯分布的噪声矩阵；