[发明专利]一种非线性系统最优控制器的在线学习方法有效

申请号：	201911396754.2	申请日：	2019-12-30
公开（公告）号：	CN111142383B	公开（公告）日：	2022-09-23
发明（设计）人：	李新兴;查文中;王雪源;王蓉	申请（专利权）人：	中国电子科技集团公司信息科学研究院
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京中知法苑知识产权代理有限公司 11226	代理人：	李明;赵吉阳
地址：	100086 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种非线性系统最优控制器在线学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种非线性系统最优控制器的在线学习方法，所述方法包括：获取控制系统的初始状态、系统状态、控制输入，所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统；建立连续时间系统模型；定义目标函数；建立最优控制器；建立基于离策略学习的同步策略迭代算法；对最优控制器进行在线训练学习；将训练学习得到的最优控制器用于实际被控对象，所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。

技术领域

本发明涉及一种非线性系统最优控制器的在线学习方法，尤其涉及一种

背景技术

在工程实践过程中，工程技术人员经常需要对机器人、飞行器等复杂非线性系统的控制器进行优化。从控制论和数学的角度来看，寻找非线性系统的最优控制器难度巨大，经典的动态规划方法往往会面临“维数灾”问题，即计算复杂度随着系统状态维数的增加呈指数增长。此外，获得最优控制器需要求解复杂的哈密顿-雅可比-贝尔曼方程(HJB方程)，但HJB方程为非线性的偏微分方程，非常难求解。

近年来，强化学习技术正成为求解复杂非线性系统最优控制器的有力工具。强化学习是机器学习中除监督学习和非监督学习的第三类算法，其基本思想是采用不断试错的方法对最优控制器在线学习。Kyriakos G.Vamvoudakis和Frank L.Lewis在论文“Onlineactor–critic algorithm to solve the continuous-time infinite horizon optimalcontrol problem”中首次提出了一种新型的强化学习算法，即所谓的同步策略迭代，用于非线性仿射系统最优控制器的在线学习，其基本思想是利用两个神经网络，即执行网络和评价网络，分别对最优控制器和其对应的最优值函数进行近似，进而利用广义策略迭代的思想，在系统运行的过程中实时对两个神经网络进行训练。与传统强化学习方法相比，该方法无需在策略评估与策略提高之间反复迭代，而是在系统运行的过程中同步进行策略评估和策略提高，实现了真正意义上的在线学习。但是该方法仍存在以下问题和缺点：1)该方法属于在策略方法(on-policy)，具有探索不足的问题，为提高算法对策略空间的探索能力，需要在执行网络的输出中加入一定的探索噪声，而探索噪声会引起一定的激励噪声偏差；2)该方法只适用于仿射系统，对于更一般的非仿射系统则不再适用。Bian Tao等人在论文“Adaptive dynamic programming and optimal control of nonlinear nonaffinesystems”提出了适用于一般非仿射系统的离策略(off-policy)强化学习方法，有效解决了同步策略迭代方法探索不足的问题，但该方法属于传统的策略迭代算法，无法实现对最优控制器的在线学习。总的来说，对于一般的非线性非仿射系统的最优控制问题，目前尚未提出可以实现实时在线学习的强化学习方法。

为克服现有同步策略迭代方法无法应用到一般的非线性非仿射系统以及同步策略迭代对策略空间探索不足的问题，本专利所要解决的技术问题包括：1、对于一般的非线性非仿射系统，提出一种可以对最优控制器进行实时在线学习的强化学习方法。2、采用离策略学习技术克服同步策略迭代方法对状态空间和策略空间探索不足的问题。

发明内容

针对现有技术的缺陷，本发明提出一种非线性系统最优控制器的在线学习方法。具体方案如下：

一种非线性系统最优控制器的在线学习方法，包括如下步骤：

S1.获取控制系统的初始状态、系统状态、控制输入，所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统；

S2.建立连续时间系统模型：

x＝f(x(t),u(t)),x(0)＝x₀

式中，为系统状态，u∈R^m为系统的控制输入，x(0)＝x0为系统的初始状态，Ω为状态区域；

S3.定义目标函数：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院，未经中国电子科技集团公司信息科学研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】