[发明专利]一种线性系统自适应最优控制方法和装置在审
申请号: | 202011078377.0 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112149361A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 秦家虎;李曼;万艳妮;马麒超 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/11 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱娜 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 线性 系统 自适应 最优 控制 方法 装置 | ||
本发明公开了一种线性系统自适应最优控制方法和装置,方法包括:构建具有领导者和跟随者的两输入线性系统;设计两输入线性系统每个参与者的目标函数;构建最优目标函数和最优控制策略满足的方程;设计值迭代强化学习算法计算最优目标函数和最优控制策略;利用最小二乘法,给出强化学习算法的一种实现;基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象,以及实际系统的精确的动力学模型通常难以获取的难题,通过充分利用系统的输入输出信息设计控制策略,能够在参与者具有不平等地位的情况下实现自适应最优控制。
技术领域
本发明涉及线性系统控制技术领域,尤其涉及一种线性系统自适应最优控制方法和装置。
背景技术
自然界及人类社会中的系统的一个重要特征是包含多个决策者。决策者通常具有自私属性,即试图采取能够使自身性能指标最优的策略。策略设计的一个有效的工具是博弈论。在大多数已有的工作中,通常考虑所有的参与者的行为是同时的,即,考虑所有参与者处于平等的地位且同时决定各自的策略。然而,在很多实际场景中,某些个体可能比其他参与者掌握更多的信息,且能够优先采取行动。比如,在电力系统中,分布式能源站首先决定电价并主导市场,而消费者随后决定自己的能源消耗量。
斯塔克伯格博弈被广泛用来建模和研究这种分层决策问题。在斯塔克伯格博弈中,通常具有两个参与者:领导者和跟随者。领导者在考虑跟随者可能的合理响应的情况下优先决定自己的策略,而跟随者在观察到领导者的策略后,据此采取对自己最有利的策略。因此,斯塔克伯格博弈通常被描述为一个具有分层且耦合结构的双层优化问题。
在实际系统如电力系统、机器人系统中,博弈参与者的状态通常满足一个动态方程。为了研究方便,该动态方程可以考虑线性形式。当考虑博弈参与者的状态满足一个线性动态方程约束时,斯塔克伯格博弈问题的解满足一组耦合的非线性偏微分方程(PDEs),即Hamilton-Jacobi-Bellman(HJB)方程。众所周知,我们几乎不可能给出耦合PDEs的解析解,而且估计PDEs的解也是非常困难的。目前已有的方法大多依赖于精确的、完整的系统动力学方程的信息,而这一信息在实际应有中通常难以获取。
因此,如何合理的建模参与者之间的分层决策关系,如何充分利用系统与环境的交互,设计不依赖于完整的系统动力学模型信息的控制器是亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种线性系统自适应最优控制方法,基于斯塔克伯格博弈,能够充分考虑实际应用中决策的参与者具有不平等地位的现象,以及解决实际系统的精确的动力学模型通常难以获取的难题。
本发明提供了一种线性系统自适应最优控制方法,包括:
构建具有领导者和跟随者的两输入线性系统;
设计所述两输入线性系统每个参与者的目标函数;
构建最优目标函数和最优控制策略满足的方程;
设计值迭代强化学习算法计算最优目标函数和最优控制策略;
利用最小二乘法,给出强化学习算法的一种实现;
基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
优选地,所述构建具有领导者和跟随者的两输入线性系统,包括:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
优选地,所述设计所述两输入线性系统每个参与者的目标函数,包括:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011078377.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有防烫结构的频谱治疗仪
- 下一篇:一种手持墙壁装饰装置