[发明专利]一种概率滤波强化学习无人船控制方法、装置及终端设备有效
申请号: | 202111538078.5 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114371700B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 崔允端;李慧云;彭磊 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06F18/214;G06N7/01;G06N20/00 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 汪海琴 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 概率 滤波 强化 学习 无人 控制 方法 装置 终端设备 | ||
1.一种概率滤波强化学习无人船控制方法,其特征在于,包括:
获取t时刻的所述无人船的第一状态数据、第一控制信号和t-1时刻的第二控制信号,所述第一控制信号用于控制所述无人船在所述t时刻的运动状态,所述第二控制信号用于控制所述无人船在所述t-1时刻的运动状态;
对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号;
根据所述偏差补偿信号进行规划,得到目标控制信号;
根据所述目标控制信号控制所述无人船在t+1时刻的运动状态;
所述对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号,包括:
将所述第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型,对所述第一状态数据和所述第二控制信号进行概率滤波处理,得到预测状态信号;
对所述预测状态信号和所述第一控制信号进行偏差补偿处理,得到偏差补偿信号;
通过预训练的基于概率滤波的强化学习模型中的贝叶斯滤波迭代预测过程概率模型,在时间t-1的时刻,我们定义对t-1时刻的无人船的预测状态信号的先验信息,根据基于高斯过程的概率模型和矩匹配,在已知无人船将要执行的控制信号情况下,来预测服从高斯分布的下一时刻的控制信号;当无人船在t-1时刻执行了控制信号后,移到第t步,并且获取t-1时刻包含噪声的状态数据,根据当前模型预测状态信号和获取的含噪声状态数据,贝叶斯滤波迭代处理器将计算预测状态信号的后验信息,在t时刻,将第二控制信号和第一状态数据输入基于概率滤波的强化学习模型,得到无人船的预测状态信号的先验信息,即t时刻的预测状态信号,预测状态信号通过对应时刻的期望和方差表示;
所述根据所述偏差补偿信号进行规划,得到目标控制信号,包括:
将所述偏差补偿信号输入至预测控制器并进行求解,使所述预测控制器的目标函数满足预设的约束条件,得到所述目标控制信号;
所述目标函数为:
;
其中,s表示时间,H表示对于服从高斯分布的偏差补偿的预测分布,表示第s时刻的偏差补偿信号,表示第s时刻待优化的预设控制信号,表示目标控制信号序列,表示t+1时刻的目标控制信号,为遗忘参数。
2.如权利要求1所述的概率滤波强化学习无人船控制方法,其特征在于,所述约束条件:所述目标控制信号位于预设数据范围内,所述预设数据范围包括最大预设数值和最小预设数值:
;
;
其中,表示期望,表示方差,表示目标控制信号服从高斯分布,表示最小预设数值,表示最大预设数值。
3.如权利要求1所述的概率滤波强化学习无人船控制方法,其特征在于,所述方法,还包括:
获取训练数据集;其中,所述训练数据集包括多个连续时刻的状态训练数据及与每个状态训练数据对应的下一时刻的控制训练数据;
通过所述训练数据集对基于概率滤波的强化学习模型进行迭代训练,得到预训练的基于概率滤波的强化学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111538078.5/1.html,转载请声明来源钻瓜专利网。