[发明专利]一种线性系统自适应最优控制方法和装置在审
申请号: | 202011078377.0 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112149361A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 秦家虎;李曼;万艳妮;马麒超 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/11 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱娜 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 线性 系统 自适应 最优 控制 方法 装置 | ||
1.一种线性系统自适应最优控制方法,其特征在于,包括:
构建具有领导者和跟随者的两输入线性系统;
设计所述两输入线性系统每个参与者的目标函数;
构建最优目标函数和最优控制策略满足的方程;
设计值迭代强化学习算法计算最优目标函数和最优控制策略;
利用最小二乘法,给出强化学习算法的一种实现;
基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
2.根据权利要求1所述的方法,其特征在于,所述构建具有领导者和跟随者的两输入线性系统,包括:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
3.根据权利要求2所述的方法,其特征在于,所述设计所述两输入线性系统每个参与者的目标函数,包括:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
4.根据权利要求3所述的方法,其特征在于,所述构建最优目标函数和最优控制策略满足的方程,包括:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
5.根据权利要求4所述的方法,其特征在于,设计值迭代强化学习算法计算最优目标函数和最优控制策略,包括:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
6.根据权利要求5所述的方法,其特征在于,所述利用最小二乘法,给出强化学习算法的一种实现,包括:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
7.根据权利要求6所述的方法,其特征在于,所述给出强化学习算法的一种实现,包括:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
8.一种线性系统自适应最优控制装置,其特征在于,包括:
第一构建模块,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
9.根据权利要求8所述的装置,其特征在于,所述第一构建模块具体用于:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
10.根据权利要求9所述的装置,其特征在于,所述第一设计模块具体用于:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011078377.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有防烫结构的频谱治疗仪
- 下一篇:一种手持墙壁装饰装置