[发明专利]一种基于自适应动态规划算法的虚拟引导船舶自动靠泊控制方法有效
申请号: | 202010802450.8 | 申请日: | 2020-08-11 |
公开(公告)号: | CN111880546B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 李铁山;刘琪;单麒赫;于仁海;肖杨;高潇阳 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 动态 规划 算法 虚拟 引导 船舶 自动 靠泊 控制 方法 | ||
1.一种基于自适应动态规划算法的虚拟引导船舶自动靠泊控制方法,其特征在于,包括如下步骤:
步骤S1、建立船舶靠泊非线性控制系统数学模型;
所述步骤S1的具体实现方式如下:
步骤S11、考虑船舶自主靠泊时通常以较低的速度运行,因此船舶靠泊数学模型表述如下:
式(1)中,表示船舶位置坐标和艏向角的姿态变量;υ=[u,v,r]T表示船舶前进速度、横向速度和艏摇速度变量;表示坐标转换矩阵,其表示形式如下:
式(2)中,M为正定惯性矩阵,D为线性阻尼矩阵,为船舶纵向控制力、横向控制力以及艏摇控制力矩;
步骤S12、定义Δt为采样时间间隔,将式(1)和式(2)进行离散化,得到船舶靠泊非线性控制系统数学模型:
步骤S13、定义x(k)=[η(k)T,υ(k)T]T,可以得到:
x(k+1)=f(x(k))+g(x(k))u(k) (6)
其中,且;
步骤S2、基于所述建立的船舶靠泊非线性控制系统数学模型,引入虚拟引导系统,得到最优控制器,将靠泊控制问题转化为跟踪控制问题;
所述步骤S2的具体实现方式如下:
设虚拟引导系统采用直线运动形式,同时其状态xg(k)满足xg(k+1)=φ(xg(k));船舶系统状态x(k)跟踪虚拟引导系统状态xg(k),船舶跟踪误差设为ξ(k)=x(k)-xg(k),得到最优控制器为:
其中,表示g(·)的伪逆;
步骤S3、基于所述最优控制器,建立靠泊最优评价指标;将所述跟踪控制问题转化为最优调节问题;
所述步骤S3的具体实现方式如下:
步骤S31、设d(k)为d(k)=u(k)-ue(k),则针对船舶时变最优跟踪控制得到如下船舶靠泊跟踪性能指标函数:
其中,为正定矩阵;
步骤S32、令最优靠泊控制律θ(k)=d(k)-d(k-1),且θ(0)=d(0),则可以得到:
所以船舶跟踪性能指标函数可以描述为:
又由于ξ(k+1)=x(k+1)-xg(k+1),结合(6)式可得
ξ(k+1)=f(x(k))+g(x(k))u(k)-xg(k+1) (11)
步骤S33、将公式(9)、(10)和(11)转化为最优调节问题,转换之后的系统可以表示为:
步骤S4、基于自适应动态规划方法设计船舶最优靠泊控制,逼近所述靠泊最优评价指标;
所述步骤S4的具体实现方式如下:
步骤S41、基于贝尔曼最优性原理,船舶最优性能指标函数满足下面的HJB方程:
其中,J*(ξ(k))表示最优跟踪问题的性能指标函数。
步骤S42、采用自适应动态规划算法,将船舶跟踪性能指标函数和控制律从i=0开始更新迭代,对于i=0,1,2,L可得到:
以及
其中,θi(k)表示第i次迭代的控制律;Ji(ξ(k))表示第i次迭代的性能指标函数;
步骤S43、若得到最优控制律θ(k),则原始船舶靠泊系统(6)的最优靠泊控制可以通过下式得到:
步骤S5、通过神经网络执行所述船舶最优靠泊控制,获得最优靠泊控制律。
2.根据权利要求1所述的基于自适应动态规划算法的虚拟引导船舶自动靠泊控制方法,其特征在于,所述步骤S5的具体实现方式如下:
步骤S51、在执行自适应动态规划算法之前,对未知船舶靠泊系统动态进行辨识:
其中,为模型网络的输入,Vm表示输入层至隐含层的权值矩阵,Wm表示隐含层至输出层的权值矩阵;则模型网络误差定义为:
步骤S52、定义性能误差为:
步骤S53、采用梯度下降法,更新模型网络权重:
其中,αm是模型网络学习率;
步骤S54、采用评价网络近似性能指标函数Ji(ξ(k)),其输出表示为:
其中,Vc表示输入层至隐含层的权值矩阵,Wc表示隐含层至输出层的权值矩阵;且目标函数为:
步骤S55、定义评价网络误差函数为则评价网络的目标是极小化因此,神经网络权重更新律为:
其中,αc是评价网络学习率;
步骤S56、以状态误差作为输入并以最优控制的差分作为输出,则执行网络的输出表示为:
其中,Va表示输入层至隐含层的权值矩阵,Wa表示隐含层至输出层的权值矩阵;而且,执行网络的目标函数由(14)式给出,θi(k)是目标函数可以表示为:
其中,g(x(k))可以表示为:
因此,执行网络的输出表示为执行网络的目标是最小化所以权值更新律为:
其中,βa是评价网络学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010802450.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保护婴儿的安全座椅
- 下一篇:一种车削课堂实践中便携式的人体保护装置