[发明专利]一种变稳船变稳控制方法、系统、装置及存储介质有效
申请号: | 202210597700.8 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114954840B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 李诗杰;徐子茜;刘佳仑;徐诚祺 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | B63B79/40 | 分类号: | B63B79/40;B63B79/20;G06F30/27;G06N7/01 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 陈嘉乐 |
地址: | 430063 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 变稳船变稳 控制 方法 系统 装置 存储 介质 | ||
1.一种变稳船变稳控制方法,其特征在于,包括以下步骤:
获取待模拟船的航行状态,所述航行状态包括位置、航向角、速度及控制量,所述控制量包括舵角和螺旋桨转速;
根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型;
在所述马尔可夫决策过程数学模型的环境下构建基于DQN的变稳控制模型;
根据所述待模拟船的航行状态和所述变稳控制模型获取目标控制量,所述目标控制量包括目标舵角和目标螺旋桨转速;
根据所述目标控制量进行所述变稳船的变稳控制;
所述根据所述待模拟船的航行状态构建马尔可夫决策过程数学模型,包括:
根据所述待模拟船的航行状态建立运动学模型;
根据所述运动学模型构建马尔可夫决策过程数学模型;
所述马尔可夫决策过程数学模型包括状态空间、行动空间、奖励函数和控制策略;
所述根据所述运动学模型构建马尔可夫决策过程数学模型,包括:
根据所述运动学模型定义所述状态空间、所述行动空间,所述状态空间包括各个时刻的所述航向角和所述速度,所述行动空间包括各个时刻的所述控制量;
根据变稳控制要求设置所述奖励函数;其中,最大累计奖励为:
式中,γ∈[0,1],表示折扣函数,用于调节未来奖励对当前动作的影响;rk表示k时刻获得的瞬时奖励,k表示时间周期数;
在船舶的状态与环境的交互过程中会不断地调整映射关系,所述映射关系定义为控制策略,表示在某种状态s下执行动作a的概率,即控制策略:
状态空间:s=s1,s2,...,st,st+1,st表示t时刻船舶的航向角和速度;
行动空间:a=a1,a2,...,at,at+1,at表示t时刻船舶的控制量,即舵角和螺旋桨转速;
根据所述状态空间获取状态值函数;
根据所述行动空间获取行动值函数;其中,状态值函数和行动值函数用于评价控制策略
状态值函数表示变稳船在状态s下采取控制策略后得到的期望奖励值,行动值函数表示变稳船根据控制策略在状态s下执行动作a后得到的期望奖励值,具体如下:
根据所述奖励函数计算所述状态值函数和所述行动值函数的最优解;其中,根据奖励函数R中的最大累计奖励Rt计算状态值函数和行动值函数的最优解:
式中,s’表示下一时刻的航向角的预测值和速度的预测值,a’表示下一时刻所有可能采取的舵角和螺旋桨转速,γ表示折扣因子,满足Bellman方程;
根据所述最优解得到所述控制策略,完成所述马尔可夫决策过程数学模型的构建;其中,根据状态值函数和行动值函数的最优解得到最优的控制策略:
所述在所述马尔可夫决策过程数学模型的环境下构建基于DQN的变稳控制模型,包括:
根据所述马尔可夫决策过程数学模型获取变稳船与环境的交互数据,并将所述交互数据存入经验池;
当所述经验池中的数据达到预设的阈值后,从所述经验池中获取经验样本;
根据所述经验样本构建当前网络和目标网络,所述当前网络和所述目标网络的结构相同,所述当前网络配置的参数为第一参数θ,所述目标网络配置的参数为第二参数θ-;
根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值;当前网络的参数集合表示为:Q(s,a;θi),目标网络的参数集合表示为:Q(s’,a’;θi),假设经验样本的初始状态为(st,at,rt,st+1),则目标网络的优化目标值为:
y(s,a)=r+γ·maxa′Q(s’,a’;θi)
其中y(s,a)由目标网络产生,s’表示下一时刻的航向角的预测值和速度的预测值,a’表示下一时刻所有可能采取的舵角和螺旋桨转速,γ表示折扣因子;
根据所述目标参数值更新所述当前网络和所述目标网络,完成所述变稳控制模型的构建;
所述根据最小化损失函数计算所述第一参数和所述第二参数的目标参数值,包括:
根据所述经验样本和所述当前网络计算Q的预测值;
根据所述经验样本和所述目标网络计算Q的目标值;
根据所述最小化损失函数计算所述预测值与所述目标值之间的损失函数值;
根据所述损失函数值,通过梯度下降求解得到所述目标参数值;
所述最小化损失函数Loss为:
Loss(θ;Q,y)=E{[r+γ·maxa’Q(s’,a’;θ-)-Q(s,a;θ)]2}
根据y(s,a)和损失函数值,损失函数Loss对θ求偏导可得:
通过梯度下降求解θ,得到最优解,即所述目标参数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210597700.8/1.html,转载请声明来源钻瓜专利网。