[发明专利]一种基于数据驱动的机器人鲁棒学习预测控制方法有效

专利信息
申请号: 201911095625.X 申请日: 2019-11-11
公开(公告)号: CN110647042B 公开(公告)日: 2022-04-26
发明(设计)人: 张兴龙;陆阳;徐昕;刘嘉航 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 长沙国科天河知识产权代理有限公司 43225 代理人: 邱轶
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 驱动 机器人 学习 预测 控制 方法
【权利要求书】:

1.一种基于数据驱动的机器人鲁棒学习预测控制方法,其特征在于,包括以下步骤:

步骤1,基于数据驱动将机器人系统的非线性特性抽象至高维线性空间,得到机器人系统的全局高维线性化表示,即机器人系统的全局线性化模型,其中,将机器人系统的非线性特性抽象至高维线性空间具体是:

定义机器人系统原始离散非线性系统为:

x(k+1)=f(x(k),u(k))

式中其中x表示机器人系统的原始状态量,u表示机器人系统的原始控制量,和是在他们的内部包含原点的凸紧集;f是未知光滑的状态转移函数,在任意初始条件开始,目标是让状态控制对(x(k),u(k))在k趋于无穷的时候能够到达原点;

非线性特性抽象至高维线性空间得到逼近模型:

式中其中表示抽象状态量,表示抽象控制量,是鲁棒不变集,Ω是收缩原始状态变量范围使得的稳定反馈策略,是终端约束集;

在样本空间内和逼近误差允许的条件下构造有限维Koopman算子的近似逼近,为预测时域内的每一轮学习控制提供线性的模型信息,全局线性化模型具体为:

式中,是高维线性空间中的状态变量,Ns>>n,是线性状态转移矩阵,是输入映射矩阵,是从特征映射到原始状态空间的矩阵,是x的估计值;由于存在逼近误差,所以用于滚动优化中的全局线性化模型被表示为:

假定有M个数据集(z,z+),目标是得到有限维矩阵用来逼近Koopman算子其中Nk是产生的标量观测值的数量,也就是Φ的维度,使得而其中δ就是逼近残差;逼近的目标是最小化残差δ,关于残差的处理是解一个基于l2正则化的优化问题:

这里θ是一个正值,是第j个数据集的样本,且是无穷维的;选一个Φ的特殊形式:

这里Nk=Ns+m,这样就可以解上述优化问题,通过求解到的有限维矩阵也就是[A B],最终实现对全局线性化模型∑的矩阵A和B的求解;矩阵C的求解是通过解下面的优化问题:

最终求得矩阵C;

步骤2,对机器人系统的原始状态量与控制量的取值范围进行收缩,并将收缩结果作为全局线性化模型的状态量与控制量的取值范围;

步骤3,基于全局线性化模型和高维线性空间中的状态变量来不断地进行滚动优化,学习得到机器人系统当前时刻的近似最优预测控制序列;

步骤4,根据当前时刻的近似最优预测控制序列得到实际控制率;

步骤5,将当前时刻的实际控制率应用于机器人系统以更新机器人系统,得到机器人系统下一时刻的状态量,然后对该状态量进行映射处理以将其更新至高维线性空间中的状态变量后重复步骤3-5;

步骤3中,在滚动优化过程中,采用对数障碍函数来处理全局线性化模型的状态量约束和控制量约束,指导滚动优化中的权值更新;

步骤3中,采用滚动时域增量式Actor-Critic结构进行滚动优化,所述滚动时域增量式Actor-Critic结构包括Actor网络和Critic网络,其中,Actor网络为执行网络,Critic网络为评价网络,滚动优化的具体过程为:

步骤3.1,初始化

设定每一时刻预测控制中的最大学习轮数为imax、每一时刻预测控制中每一轮学习时的预测时域为τ∈[k,…,k+N-1]、迭代变量为k、i,其中,k表示当前时刻,i表示预测控制中学习轮数;

设定Actor网络的权值为Wa(k)、Critic网络的权值为Wc(k);

步骤3.2,令k=1;

步骤3.3,令i=1、τ=k,即Wa(k)=Wa(τ)、Wc(k)=Wc(τ),其中,s(k)表示机器人在k时刻的高维线性空间中的状态变量;

步骤3.4,Actor网络根据第τ预测时刻高维线性空间中的状态变量得到机器人在第τ个预测时刻的控制率估计值

步骤3.5,根据控制率估计值与第τ预测时刻高维线性空间中的状态变量得到机器人在τ+1预测时刻的高维线性空间中的状态变量

步骤3.6,Critic网络根据第τ+1预测时刻高维线性空间中的状态变量得到协状态变量的估计值并进一步得到协状态变量的期望值

步骤3.7,根据协状态变量的估计值得到机器人在τ预测时刻的控制率期望值

步骤3.8,在对数障碍函数的指导下根据Actor网络在τ预测时刻的权值Wa(τ)与控制率期望值得到Actor网络在τ+1预测时刻的权值Wa(τ+1)、在对数障碍函数的指导下根据Critic网络在τ预测时刻的权值Wc(τ)与协状态变量的期望值得到Critic网络在τ+1预测时刻的权值Wc(τ+1);

步骤3.9,令τ=τ+1后重复步骤3.4-3.9直至τ>k+N-1,得到机器人在完成第k时刻预测中初步控制序列:Actor网络的权值序列Wa(k)~Wa(k+N-1)与Critic网络的权值序列Wc(k)~Wc(k+N-1),并将Actor网络的权值由Wa(k)更新为Wa(k+N-1)、Critic网络的权值由Wc(k)更新为Wc(k+N-1);

步骤3.10,判断iimax是否成立,若是则输出当前得到的初步控制序列作为机器人在k时刻的近似最优预测控制序列,否则令i=i+1后重复步骤3.4-3.10。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911095625.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top