[发明专利]基于增强学习型智能算法的无人艇航迹跟踪控制方法有效

申请号：	201610987001.9	申请日：	2016-11-02
公开（公告）号：	CN106338919B	公开（公告）日：	2019-04-19
发明（设计）人：	王元慧;赵亮博;丁福光;刘向波;王莎莎;佟海艳	申请（专利权）人：	哈尔滨工程大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供的是一种基于增强学习型智能算法的无人艇航迹跟踪控制方法。用位置参考系统测得无人艇的位置信息、用姿态参考系统测得无人艇的艏向姿态信息；对获取的位置信息及姿态信息进行滤波及融合，得到无人艇的实际位置及姿态；将期望的位置及姿态与实际的位置及姿态做比较，并经过解算得到误差信号；利用Backstepping法不断反演，最终得到无人艇航迹跟踪控制系统的控制律。本发明所述的近似策略迭代增强学习的航迹跟踪学习控制，在不依赖于环境模型的基础上实现了Backstepping控制器的学习优化，相较于传统的航迹跟踪控制器其算法更加智能，跟踪控制响应更加迅速，跟踪效果更加平滑，跟踪误差小。
搜索关键词：	基于增强学习智能算法无人航迹跟踪控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于增强学习型智能算法的无人艇航迹跟踪控制方法，包括如下步骤：(1)用位置参考系统测得无人艇的位置信息、用姿态参考系统测得无人艇的艏向姿态信息；(2)对获取的位置信息及姿态信息进行滤波及融合，得到无人艇的实际位置及姿态；(3)将期望的位置及姿态与实际的位置及姿态做比较，并经过解算得到误差信号；(4)利用Backstepping法不断反演，最终得到无人艇航迹跟踪控制系统的控制律；其特征是控制律生成过程中还包括利用近似策略迭代增强学习的智能算法进行航迹跟踪学习的过程，具体过程为：定义五元组(S,LA,LP,R,γ)，其中，S为有限或连续状态空间、LA为有限或连续行为空间、R为回报函数、LP为MDP的状态转移概率、γ为决策优化的目标函数，将MDP的状态定义为三维向量向量元素e_x,e_y,分别为实际的北向位置、东向位置及艏向角同三者期望值之间的误差，Backstepping控制器采用自学习优化策略，MDP的行为定义为一系列候选的控制器参数{(K₁₁,K₂₁),(K₁₂,K₂₂),…(K_1n,K_2n)}；其中回报函数和目标函数定义为：R＝m|e||e|为路径跟随误差，m为负常数，n为加权因子，然后，采用近似策略迭代增强学习法，解决连续空间的策略逼近与泛化问题，行为值函数Q(s,a)的逼近形式为：其中s(x,a)为状态‑行为对(x,a)的联合特征，α_i为加权系数，(x_i,a_i)为样本点，同时确定行为值函数逼近误差的上界δ：整个流程如下：(1)、随机生成初始策略，确定停止条件、以及马氏决策过程在初始条件下产生的观测数据；(2)、算法初始化，确定迭代次数；(3)、迭代循环：a)对当前数据集合，进行策略值函数的估计；b)计算策略的优化与改进，并生成下一个策略；c)生成新的数据样本；d)返回循环；满足条件停止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610987001.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于增强学习型智能算法的无人艇航迹跟踪控制方法有效

专利文献下载