[发明专利]一种基于数据驱动的机器人鲁棒学习预测控制方法有效
申请号: | 201911095625.X | 申请日: | 2019-11-11 |
公开(公告)号: | CN110647042B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 张兴龙;陆阳;徐昕;刘嘉航 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 驱动 机器人 学习 预测 控制 方法 | ||
1.一种基于数据驱动的机器人鲁棒学习预测控制方法,其特征在于,包括以下步骤:
步骤1,基于数据驱动将机器人系统的非线性特性抽象至高维线性空间,得到机器人系统的全局高维线性化表示,即机器人系统的全局线性化模型,其中,将机器人系统的非线性特性抽象至高维线性空间具体是:
定义机器人系统原始离散非线性系统为:
x(k+1)=f(x(k),u(k))
式中其中x表示机器人系统的原始状态量,u表示机器人系统的原始控制量,和是在他们的内部包含原点的凸紧集;f是未知光滑的状态转移函数,在任意初始条件开始,目标是让状态控制对(x(k),u(k))在k趋于无穷的时候能够到达原点;
非线性特性抽象至高维线性空间得到逼近模型:
式中其中表示抽象状态量,表示抽象控制量,是鲁棒不变集,Ω是收缩原始状态变量范围使得的稳定反馈策略,是终端约束集;
在样本空间内和逼近误差允许的条件下构造有限维Koopman算子的近似逼近,为预测时域内的每一轮学习控制提供线性的模型信息,全局线性化模型具体为:
式中,是高维线性空间中的状态变量,Ns>>n,是线性状态转移矩阵,是输入映射矩阵,是从特征映射到原始状态空间的矩阵,是x的估计值;由于存在逼近误差,所以用于滚动优化中的全局线性化模型被表示为:
假定有M个数据集(z,z+),目标是得到有限维矩阵用来逼近Koopman算子其中Nk是产生的标量观测值的数量,也就是Φ的维度,使得而其中δ就是逼近残差;逼近的目标是最小化残差δ,关于残差的处理是解一个基于l2正则化的优化问题:
这里θ是一个正值,是第j个数据集的样本,且是无穷维的;选一个Φ的特殊形式:
这里Nk=Ns+m,这样就可以解上述优化问题,通过求解到的有限维矩阵也就是[A B],最终实现对全局线性化模型∑的矩阵A和B的求解;矩阵C的求解是通过解下面的优化问题:
最终求得矩阵C;
步骤2,对机器人系统的原始状态量与控制量的取值范围进行收缩,并将收缩结果作为全局线性化模型的状态量与控制量的取值范围;
步骤3,基于全局线性化模型和高维线性空间中的状态变量来不断地进行滚动优化,学习得到机器人系统当前时刻的近似最优预测控制序列;
步骤4,根据当前时刻的近似最优预测控制序列得到实际控制率;
步骤5,将当前时刻的实际控制率应用于机器人系统以更新机器人系统,得到机器人系统下一时刻的状态量,然后对该状态量进行映射处理以将其更新至高维线性空间中的状态变量后重复步骤3-5;
步骤3中,在滚动优化过程中,采用对数障碍函数来处理全局线性化模型的状态量约束和控制量约束,指导滚动优化中的权值更新;
步骤3中,采用滚动时域增量式Actor-Critic结构进行滚动优化,所述滚动时域增量式Actor-Critic结构包括Actor网络和Critic网络,其中,Actor网络为执行网络,Critic网络为评价网络,滚动优化的具体过程为:
步骤3.1,初始化
设定每一时刻预测控制中的最大学习轮数为imax、每一时刻预测控制中每一轮学习时的预测时域为τ∈[k,…,k+N-1]、迭代变量为k、i,其中,k表示当前时刻,i表示预测控制中学习轮数;
设定Actor网络的权值为Wa(k)、Critic网络的权值为Wc(k);
步骤3.2,令k=1;
步骤3.3,令i=1、τ=k,即Wa(k)=Wa(τ)、Wc(k)=Wc(τ),其中,s(k)表示机器人在k时刻的高维线性空间中的状态变量;
步骤3.4,Actor网络根据第τ预测时刻高维线性空间中的状态变量得到机器人在第τ个预测时刻的控制率估计值
步骤3.5,根据控制率估计值与第τ预测时刻高维线性空间中的状态变量得到机器人在τ+1预测时刻的高维线性空间中的状态变量
步骤3.6,Critic网络根据第τ+1预测时刻高维线性空间中的状态变量得到协状态变量的估计值并进一步得到协状态变量的期望值
步骤3.7,根据协状态变量的估计值得到机器人在τ预测时刻的控制率期望值
步骤3.8,在对数障碍函数的指导下根据Actor网络在τ预测时刻的权值Wa(τ)与控制率期望值得到Actor网络在τ+1预测时刻的权值Wa(τ+1)、在对数障碍函数的指导下根据Critic网络在τ预测时刻的权值Wc(τ)与协状态变量的期望值得到Critic网络在τ+1预测时刻的权值Wc(τ+1);
步骤3.9,令τ=τ+1后重复步骤3.4-3.9直至τ>k+N-1,得到机器人在完成第k时刻预测中初步控制序列:Actor网络的权值序列Wa(k)~Wa(k+N-1)与Critic网络的权值序列Wc(k)~Wc(k+N-1),并将Actor网络的权值由Wa(k)更新为Wa(k+N-1)、Critic网络的权值由Wc(k)更新为Wc(k+N-1);
步骤3.10,判断iimax是否成立,若是则输出当前得到的初步控制序列作为机器人在k时刻的近似最优预测控制序列,否则令i=i+1后重复步骤3.4-3.10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911095625.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置