[发明专利]一种基于加强学习的最优跟踪控制算法在审
申请号: | 202110081538.X | 申请日: | 2021-01-21 |
公开(公告)号: | CN112925203A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 王雨佳;杨佳锷;王牧原;杨佳喆 | 申请(专利权)人: | 深圳翱诺科技有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京君恒知识产权代理有限公司 11466 | 代理人: | 张林 |
地址: | 150001 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加强 学习 最优 跟踪 控制 算法 | ||
本发明涉及跟踪控制算法,更具体的说是一种基于加强学习的最优跟踪控制算法,该方法包括以下步骤:步骤一:建立非线性系统的数学模型;步骤二:定义系统跟踪误差,建立无限域性能指标;步骤三:求取最优跟踪控制策略;步骤四:求取近似最优跟踪控制器;可以应用于非线性系统最优镇定控制器设计和最优跟踪控制器设计;简化了最优跟踪控制器设计方法;本算法可以用于任意非线性系统而不是只用于含有零平衡点的系统,本算法所提的最优跟踪控制算法可以得到很好的控制效果。
技术领域
本发明涉及跟踪控制算法,更具体的说是一种基于加强学习的最优跟踪控制算法。
背景技术
在自动控制领域,控制方法有很多种。例如:鲁棒控制技术,滑模控制技术,反步控制技术和预测控制技术等。这些控制方案结合自身的控制优势,通过调节控制器参数从而获得较好的控制性能。然而,这些控制方法更多的是可以保证系统稳定,并不能把性能指标和控制器设计结合起来。最终的控制结果是否满足性能指标更多的是人为判断,而不能通过理论分析把控制器设计和要求的性能指标结合起来。因此,最优控制理论受到了广泛的关注。它可以在给定的性能指标下设计出最优的控制器。求解最优控制器的方法有多种,例如:极大极小值原理,线性二次型最优控制,最优鲁棒控制,动态规划法。其中动态规划法是最优控制领域新兴的一种近似最优控制方法,由于它融合了强化学习等先进的人工智能思想,而成为当前国际上的研究热点;
例如专利号201910140183.X一种自适应动态规划的柔性机械臂控制方法,该专利给出了一种基于自适应动态规划的柔性机械臂控制设计方案。具体步骤包括:柔性机械臂动力学数学模型的建立,控制器设计,角度运动控制和关节角速度控制;该发明的缺点是此方案虽然把强化学习应用到柔性机械臂控制中,但并没给出详细的理论分析证明;此方案未给出实验证明或者仿真证明所提控制方案的有效性。
例如专利号202010572028.8一种基于强化学习的导弹纵向姿态控制算法,该专利针对导弹纵向姿态控制系统,提出了一种基于强化学习的控制算法。首先,建立导弹纵向姿态动力学模型;接着,利用导弹的跟踪误差建立性能指标函数;其次,设计神经网络逼近位置代价函数和最优控制器;最后,得到最优控制策略;该发明的缺点是跟踪控制器需要分为两个部分进行求取,比较复杂;设计的控制器只是相对于误差动态系统是最优的,但不能证明对原被控系统是最优的;
上述现有技术中均没有给出如何简化最优跟踪控制器设计;如何设计出关于原系统的最优跟踪控制器;如何设计关于含有非零平衡点系统的最优跟踪控制器。
发明内容
本发明的目的是提供一种基于加强学习的最优跟踪控制算法,可以给出如何简化最优跟踪控制器设计,可以设计出关于原系统的最优跟踪控制器;可以设计关于含有非零平衡点系统的最优跟踪控制器。
本发明的目的通过以下技术方案来实现:
一种基于加强学习的最优跟踪控制算法,该方法包括以下步骤:
步骤一:建立非线性系统的数学模型;
步骤二:定义系统跟踪误差,建立无限域性能指标;
步骤三:求取最优跟踪控制策略;
步骤四:求取近似最优跟踪控制器。
作为本技术方案的进一步优化,本发明一种基于加强学习的最优跟踪控制算法,步骤一中的非线性系统为:
其中,代表系统的n维状态向量,和分别表示系统的非线性模型函数,代表系统的m维控制输入。
作为本技术方案的进一步优化,本发明一种基于加强学习的最优跟踪控制算法,步骤二中的定义系统的跟踪误差向量如下:
e=x-xd
则,根据步骤一中的非线性系统,表示误差动态如下
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳翱诺科技有限公司,未经深圳翱诺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110081538.X/2.html,转载请声明来源钻瓜专利网。