[发明专利]基于强化学习的直升机系统控制方法、系统、装置及介质有效
申请号: | 202111249357.X | 申请日: | 2021-10-26 |
公开(公告)号: | CN114063453B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 赵志甲;何伟添;邹涛;李致富;马鸽 | 申请(专利权)人: | 广州大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 直升机 系统 控制 方法 装置 介质 | ||
本发明公开了一种基于强化学习的直升机系统控制方法、系统、装置及介质,方法包括:构建直升机系统的非线性状态空间方程;构建直升机系统的评价神经网络和执行神经网络;通过强化学习对评价神经网络和执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律,进而根据控制律对直升机系统进行控制。本发明可以对直升机系统的非线性未知因素进行近似表示并不断学习优化,提高了对系统内部耦合性、建模不准确等造成的影响的抑制,从而减小了直升机的跟踪误差,提高了直升机的控制精度,可广泛应用于直升机控制技术领域。
技术领域
本发明涉及直升机控制技术领域,尤其是一种基于强化学习的直升机系统控制方法、系统、装置及介质。
背景技术
无人机近年来引起了广泛关注,得到了迅速的发展和应用。其中最常见的无人机是无人直升机,它广泛应用于物资运输、救援行动和探测任务等各个领域。然而,无人直升机的控制是个很困难的问题,因为它是一个高度非线性的多输入多输出系统,涉及复杂的动力学建模、耦合效应和弱抗干扰性。此外,直升机系统的许多参数也难以测量。因此,为了确保设计的控制器能有更好的鲁棒性和干扰抑制,必须为直升机系统设计更好的控制技术。
迄今为止,人们对直升机系统的控制进行了大量的研究,并提出了PID控制、最优跟踪控制、滑模控制等许多技术。但是这些技术对于克服直升机系统的不确定因素和非线性部分的影响而言效果仍不理想,导致直升机的跟踪误差较大、控制精度较低。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种基于强化学习的直升机系统控制方法,该方法可以减小直升机的跟踪误差、提高直升机的控制精度。
本发明实施例的另一个目的在于提供一种基于强化学习的直升机系统控制系统。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种基于强化学习的直升机系统控制方法,包括以下步骤:
构建直升机系统的非线性状态空间方程;
构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;
通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;
根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制。
进一步地,在本发明的一个实施例中,所述构建直升机系统的非线性状态空间方程这一步骤,其具体包括:
根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下:
其中,θ表示俯仰角,ψ表示偏航角,Jp表示俯仰运动的转动惯量,Jy表示偏航运动的转动惯量,Dp表示俯仰运动的摩擦系数,Dy表示偏航运动的摩擦系数,Kpp表示俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益,Kpy表示偏航螺旋桨中作用于俯仰轴上的扭矩推力增益,Kyp表示俯仰螺旋桨中作用于偏航轴上的扭矩推力增益,Kyy表示偏航螺旋桨中作用于偏航轴上的扭矩推力增益,m表示整机质量,Lcm表示质心到固定坐标系原点的距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111249357.X/2.html,转载请声明来源钻瓜专利网。