[发明专利]一种基于数据驱动的机器人鲁棒学习预测控制方法有效

申请号：	201911095625.X	申请日：	2019-11-11
公开（公告）号：	CN110647042B	公开（公告）日：	2022-04-26
发明（设计）人：	张兴龙;陆阳;徐昕;刘嘉航	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	长沙国科天河知识产权代理有限公司 43225	代理人：	邱轶
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据驱动机器人学习预测控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于数据驱动的机器人鲁棒学习预测控制方法，通过数据驱动的方式来对系统的动力学进行辨识，将机器人的非线性特性抽象至高维线性空间，获得机器人系统的全局线性化模型；对机器人系统的原始状态量与控制量的取值范围进行收缩，并将收缩结果作为全局线性化模型的状态量与控制量的取值范围，在存在逼近残差情况下满足原始状态量与控制量的取值范围、并保持闭环控制的鲁棒性；基于全局线性化模型和高维线性空间中的状态变量来进行不断地滚动优化，学习得到机器人系统当前时刻的近似最优预测控制序列。其应用对象是动力学特性未知且不易获取和辨识、存在状态和控制量约束的一类系统为非线性的机器人，能够实现快速高效的闭环控制。

技术领域

本发明涉及一种机器人的鲁棒学习预测控制，尤其是动力学特性未知且不易获取和辨识、存在状态和控制量约束的一类系统为非线性的机器人的有效控制方法。

背景技术

目前在工业领域应用较为广泛的控制方法是模型预测控制(Model PredictiveControl，MPC)，由于其理论的发展和在工业对象上的广泛应用而被引起关注。大多数经典的MPC算法都假设给定的模型是先验生成的，在这种情况下，辨识过程可以忽略不计。事实上，由于可能存在噪声数据集，或者采用了不合理的假设结构，精确模型描述的辨识问题，特别是对于未知非线性动力学而言，是比较棘手的。从辨识的角度考虑建模的不确定性，鲁棒MPC或者说是基于tube的MPC也可能会导致控制性能的保守和退化。

近年来，一种基于学习的MPC框架依赖于控制器参数的在线更新，如模型描述和系统约束，其降低保守性和提高控制性能的能力越来越受到人们的关注。很多工作都朝着这个新的方向发展。

强化学习(Reinforcement Learning，RL)和自适应动态规划(Adaptive dynamicprogramming，ADP)作为求解无限或有限时域的最优控制问题的一种替代方法，在过去的几十年也受到了显著的关注。不同于在线求解优化问题，RL和ADP感兴趣的是在不断试错的过程中通过值函数以及策略迭代来找到近似解，这两种方法适用于复杂且很难由最优控制方法(如精确动态规划，由于Hamilton-Jacobi-Bellman方程的非线性和存在状态约束)来进行求解。与MPC类似，对于高维控制问题，RL和ADP可能会面临计算复杂度和学习效率的问题，这也被称之为“维数灾难”。为了解决这一问题，自适应评价器设计(ACD)在很多工作中也都有研究，其中值函数和策略迭代被替换为Actor-Critic网络逼近结构。

现有的与学习控制相关的技术主要集中在各个专用领域的子系统实现，具体如下：与强化学习控制相关的研究内容相近的是发明专利“基于近似策略迭代的自适应巡航控制方法”，描述了一种基于近似策略迭代的自适应巡航控制方法，主要是使用近似策略迭代算法在样本上学习，得到一个近似最优策略，在巡航控制中在线优化PI控制器参数，即采用上述近似最优策略以数据驱动的方式去在线的优化PI控制器的参数，使巡航控制达到期望的性能。专利“一种基于自评价学习的车辆侧向跟踪控制方法”与“基于在线增量式DHP的双车协同自适应巡航控制方法”主要是基于自适应动态规划(ADP)方法中的对偶启发式动态规划(Dual heuristic programming，DHP)来对无人车辆进行控制。专利“基于在线学习模型技术的水下机器人预测控制系统及方法”是基于在线学习的预测模型模块预测输出与实际输出之间的偏差，对当前时刻内的基于在线学习的预测模型模块的预测输出进行修正，从而提高预测精度，便于高效控制，适应特定环境。专利“一种数据驱动的无人船强化学习控制器结构及设计方法”使用未知信息提取模块从收集到的数据信息中提取到无人船的动力学信息，将提取到的无人船未知动力学信息通过预测模型生成模块进行数据信息重构生成预测模型。最后通过滚动时域优化模块与奖励函数模块决策出最佳控制输入量给无人船。

针对实际的非线性动力学控制对象，考虑到建模时的不确定性，现有的经典的MPC控制方法一般采用鲁棒MPC或者基于tube的MPC进行处理，而这会导致在线计算量大以及控制性能的保守和退化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911095625.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种无人船模型全系数精确辨识方法
下一篇：一种智能化烹饪平台、智能化烹饪方法及系统

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据驱动的机器人鲁棒学习预测控制方法有效

专利文献下载