[发明专利]一种非线性离散时间系统的在线学习控制方法有效

申请号：	202011635930.6	申请日：	2020-12-31
公开（公告）号：	CN113485099B	公开（公告）日：	2023-09-22
发明（设计）人：	李新兴;查文中;王雪源;王蓉	申请（专利权）人：	中国电子科技集团公司信息科学研究院
主分类号：	G05B13/02	分类号：	G05B13/02
代理公司：	北京中知法苑知识产权代理有限公司 11226	代理人：	李明;赵吉阳
地址：	100086 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种非线性离散时间系统在线学习控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种非线性离散时间系统的在线学习控制方法，包括如下步骤：

行为策略选择步骤S110：

根据被控对象的特点，利用已有经验选择行为策略u，行为策略为学习过程中实际应用到被控对象的控制策略，其主要作用是用来产生学习过程中需要用到的系统状态数据；

最优Q-函数定义步骤S120：

定义如下的最优Q-函数：

其物理意义为：在k时刻，采取行为策略u，而在之后的所有时刻，均采取最优控制策略u^*，即目标策略，由最优Q-函数定义可知，上式可等价表示为：

最优控制可表示为：

对于线性系统，Q^*(x_k,u_k)和分别是关于(x_k,u_k)和x_k的非线性函数；

评价网络和执行网络引入步骤S130：

引入评价网络和执行网络分别对Q^*(x_k,u_k)和进行在线逼近，所述评价网络和执行网络为神经网络；

评价网络用来学习最优Q-函数Q^*(x_k,u_k)，执行网络用来学习最优控制器u^*，假设评价网络中神经网络激活函数的数量为N_c，并记为最小二乘意义下评价网络对Q^*(x_k,u_k)的最佳逼近，则可表示为：

其中，为隐藏层到输出层的权重，为评价网络中隐藏层中所有激活函数构成的集合，为评价网络输入层到隐藏层的权重，其中，为第i个激活函数对应的权重，表示(x_k,u_k)对应的各激活函数的输入值，表示第i个激活函数的输入值；

设执行网络激活函数的数量为N_a，并记为最小二乘意义下执行网络对的最佳逼近，则可表示为：

执行网络的输入为系统状态，其中，为隐藏层到输入层的权重，为执行网络隐藏层激活函数构成的集合，为输入层到隐藏层的权重，其中，为第i个激活函数对应的权重，代表x_k对应的各激活函数的输入值，表示第i个激活函数的输入值，对于x_k+1，则有

估计误差计算步骤S140:

最优近似值和代替精确值和可得如下的估计误差：

其中，表示输入为时，评价网络中各激活函数的输入值，即

最优权重计算步骤S150：

对评价网络的最优权重W_c和执行网络的最优权重W_a进行在线学习，假设在k时刻，评价网络和执行网络对W_c和W_a的估计值分别为和其中，l≤k，即学习过程要在行为策略开始产生状态数据之后进行，则执行网络在k时刻的输出可表示为：

在行为策略u_k生成下一个状态x_k+1之前，执行网络还无法给出k+1时刻对W_a的估计，因此，k+1时刻执行网络对W_a的估计值仍采用则k+1时刻执行网络的输出为：

同理，当输入为(x_k,u_k)时，评价网络的输出为：

当输入为时，评价网络的输出为：

其中，同样，在生成状态x_k+1之前，评价网络也无法给出k+1时刻对W_c的估计，所以k+1时刻评价网络对W_c的估计值同样取因此有：

用估计值代替真实值得到如下的估计误差：

对于评价网络的权重采用梯度下降法进行调节，

对于执行网络的权重则采用重要性加权法进行训练，并采用改进的梯度下降法对进行在线调节，

当评价网络的权重和执行网络的权重收敛之后，执行网络的输出即为最优控制器的近似值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院，未经中国电子科技集团公司信息科学研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011635930.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载