[发明专利]基于Q-learning的船舶PID控制参数整定方法、系统及存储介质在审
申请号: | 202110196677.7 | 申请日: | 2021-02-22 |
公开(公告)号: | CN112947054A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 李诗杰;张培;刘佳仑;王乐;谢玲利 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G05B11/42 | 分类号: | G05B11/42 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 常柯阳 |
地址: | 430063 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 learning 船舶 pid 控制 参数 方法 系统 存储 介质 | ||
1.基于Q-learning的船舶PID控制参数整定方法,其特征在于,包括以下步骤:
确定船舶状态;
确定PID控制参数的动作;
根据所述船舶状态和所述PID控制参数的动作,采用Q-learning算法对船舶PID控制参数进行整定。
2.根据权利要求1所述的基于Q-learning的船舶PID控制参数整定方法,其特征在于,所述确定船舶状态这一步骤,包括以下步骤:
构建船舶航向空间状态模型;
根据所述船舶航向空间状态模型确定航行误差数据;
根据所述航行误差数据构建船舶状态表,所述船舶状态表包括若干个船舶状态。
3.根据权利要求1所述的基于Q-learning的船舶PID控制参数整定方法,其特征在于,所述PID控制参数包括比例增益、积分增益和微分增益,所述确定PID控制参数的动作这一步骤,包括以下步骤:
确定所述比例增益的步长和起始值,确定第一维参数;
确定所述积分增益的步长和起始值,确定第二维参数;
确定所述微分增益的步长和起始值,确定第三维参数;
根据所述第一维参数、所述第二维参数和所述第三维参数构建PID控制参数动作表,所述PID控制参数表包括若干个PID控制参数的动作。
4.根据权利要求1所述的基于Q-learning的船舶PID控制参数整定方法,其特征在于,所述根据所述船舶状态和所述PID控制参数的动作,采用Q-learning算法对船舶PID控制参数进行整定这一步骤,包括以下步骤:
根据所述船舶状态、所述PID控制参数的动作以及奖励确定Q值表;
对所述Q值表进行训练;
根据训练完成的Q值表进行PID控制参数在线选择。
5.根据权利要求4所述的基于Q-learning的船舶PID控制参数整定方法,其特征在于,所述对所述Q值表进行训练这一步骤,包括以下步骤:
采用ε-贪婪策略,根据所述船舶状态和所述PID控制参数的动作,获取最大奖励值,并更新所述Q值表。
6.根据权利要求5所述的基于Q-learning的船舶PID控制参数整定方法,其特征在于,所述最大奖励值由奖励函数确定,所述奖励函数如下:
其中,t0为仿真总时间范围内随机抽取的某次仿真时间的起始时间,为所抽取的11次仿真范围内的评价参数值质量的阶段性能评价指标,e2(.)为误差的平方值,η为预设的评价标准值,r为奖励值。
7.基于Q-learning的船舶PID控制参数整定系统,其特征在于,包括:
船舶状态确定模块,用于确定船舶状态;
动作确定模块,用于确定PID控制参数的动作;
整定调节模块,用于根据所述船舶状态和所述PID控制参数的动作,采用Q-learning算法对船舶PID控制参数进行整定。
8.基于Q-learning的船舶PID控制参数整定系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6中任一项所述的基于Q-learning的船舶PID控制参数整定方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-6中任一项所述的基于Q-learning的船舶PID控制参数整定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110196677.7/1.html,转载请声明来源钻瓜专利网。