[发明专利]基于高斯过程近似模型的小车上山系统自适应控制方法有效
申请号: | 201910823151.X | 申请日: | 2019-09-02 |
公开(公告)号: | CN110531620B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 钟珊;陈雪梅;应文豪;伏玉琛;龚声蓉;钱振江 | 申请(专利权)人: | 常熟理工学院 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张俊范 |
地址: | 215500 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过程 近似 模型 小车 上山 系统 自适应 控制 方法 | ||
1.一种基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,包括以下步骤:
步骤(1)初始化模型,设置环境的状态空间X和动作空间U,状态采用二维向量x=(w,v)∈X来表示,w为小车在水平方向的位置,v为小车在水平方向的速度,小车可以执行的动作为加速度u∈U;高斯过程近似模型即状态迁移函数中的临时变量为向量变量d=0、变量s=0和矩阵为状态x对应特征函数,φ(x,u)为状态动作对(x,u)的特征函数;
步骤(2)初始化超参数,设置折扣率γ,衰减因子λ,最大情节数E,高斯函数的探索方差σ2,矩阵ΔNk中对角线上的各个元素σi2,1≤i≤k,每个情节所包含的最大时间步T,值函数和策略的学习率α,当前情节数e=1,值函数参数向量策略参数向量高斯过程近似模型参数向量规划最大的次数K;
步骤(3)初始化小车上山系统的状态空间和动作空间的范围,初始化控制成功或失败的条件,当前时间步t=1,当前状态x=x1;
步骤(4)以当前最优动作u*作为高斯函数的均值,以步骤(2)中指定的探索方差σ2作为方差建立高斯方程N(u*,σ2),利用高斯方程产生当前要执行的动作ut;
步骤(5)在当前状态xt下,执行步骤(4)中确定的动作ut,并利用系统的动态性方程得到小车的下一个状态xt+1,同时利用奖赏函数获得立即奖赏rt+1,构成样本(xt,ut,xt+1,rt+1);
步骤(6)利用样本计算值函数的TD误差δt:δt=rt+1+γV(xt+1,νt)-V(xt,νt),其中,νt表示状态xt对应的值函数的参数,V(xt+1,νt)表示状态xt+1对应的值函数,V(xt,νt)表示状态xt对应的值函数;
步骤(7)更新值函数的资格迹et+1:
步骤(8)更新值函数参数vt+1:vt+1←vt+αδtet+1;
步骤(9)更新策略参数θt+1:θt+1←θt+αδt(u*-ut);
步骤(10)利用该样本来更新模型中间公式pt+1、dt+1、st+1和Pt+1;
其中,ut+1表示根据步骤(4)可以得到在状态xt+1处执行的动作,ut表示根据步骤(4)可以得到在状态xt时间步执行的动作,σt为在时间步t时,高斯过程近似模型的标准差;
步骤(11)采用当前样本更新状态迁移函数参数向量:
步骤(12)更新当前状态:x=xt+1,判断xt+1中的状态分量wt+1是否控制成功条件:
如果是,则令e=e+1,并判断当前情节e==E是否成立:
如果达到,则转入步骤(19);
否则,转入步骤(13);
步骤(13)初始化规划次数k=1,规划过程的初始状态x′k=x1;
步骤(14)在当前状态为x′k时,根据步骤(4)选择要执行的动作uk,然后根据高斯过程近似模型预测下一个状态:其中,Φk=(φ(x′1,u0),φ(x′2,u1),...,φ(x′k,ut))T为到t时间步处的状态特征矩阵,β为高斯过程的模型参数,ΔNt∈Rt×t是到t时间步为止位置分量满足高斯分布的噪声矩阵;
步骤(15)根据高斯过程近似模型更新资格迹:
步骤(16)根据高斯过程近似模型产生的模拟样本更新值函数参数:vk+1←vk+αδkek+1,其中δk为值函数的TD误差;
步骤(17)根据高斯过程近似模型产生的模拟样本更新策略参数:θk+1←θk+αδkΔuk,其中Δuk=u*-uk,u*为当前最优动作,uk表示利用高斯方程N(u*,σ2)产生的当前要执行的动作;
步骤(18)对当前规划次数k进行判断:
如果k==K
则更新当前时间步骤t=t+1,并对其进行判断;
如果当前时间步没有达到最大时间步T
转入步骤(4)继续运行;
否则
更新当前情节e=e+1,并对当前情节进行判断:
如果当前情节e==E
转入步骤(19);
否则
转入步骤(3);
否则
k=k+1,并转入步骤(14);
步骤(19)输出最优策略,此时小车从其初始状态x0出发,在任意状态xt处,采用最优策略来获得任意状态xt对应的最优动作,直到达到目标状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常熟理工学院,未经常熟理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910823151.X/1.html,转载请声明来源钻瓜专利网。