[发明专利]一种基于强化学习的无人船路径跟踪方法有效
申请号: | 202110149076.0 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112947431B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 张卫东;董博韬;孙志坚;徐鑫莉;黄梦醒;张永辉;吴迪 | 申请(专利权)人: | 海之韵(苏州)科技有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 范奇 |
地址: | 215400 江苏省苏州市太*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无人 路径 跟踪 方法 | ||
本发明提出了一种基于强化学习的无人船路径跟踪方法,包括设定无人船的跟踪路径;对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数;无人船根据控制策略参数执行路径跟踪任务;本发明提出的基于强化学习的无人船路径跟踪方法,策略训练过程采用PPO算法来提高动作策略参数的收敛性,且算法迭代过程无需人为干预,并且由于智能体主动与环境进行交互,环境中的各类干扰因素可以被智能体学习,简化了无人船路径跟踪控制器的设计过程,有效替代人力资源、提升了作业效率。
技术领域
本发明涉及智能船舶技术领域,特别是指一种基于强化学习的无人船路径跟踪方法。
背景技术
与有人船相比,无人船由于具有成本低、续航远、能够在危险坏境和狭小空间执行任务等优点,因而在许多行业得到了越来越广泛的应用。路径跟踪是无人船研究和应用的重要问题之一,其目的是通过合理的控制算法使无人船能够精确地遍历给定路线。无人船路径跟踪算法在海洋测绘、水产养殖和环境检测等方面正发挥着日益重要的作用。
由于海洋环境的复杂性,无人船进行路径跟踪任务时会受到各种干扰的影响,传统的无人船路径跟踪算法在设计时往往不能兼顾到各种干扰的影响,从而带来路径跟踪效果不理想的弊端;此外,传统路径跟踪算法的设计过程存在算法复杂等缺点。
发明内容
有鉴于此,本发明的目的在于提出一种基于强化学习的无人船路径跟踪方法,用以解决上述问题的之一或全部。
一种基于强化学习的无人船路径跟踪方法,包括如下步骤:
设定无人船的跟踪路径;
对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;
采用PPO算法对控制策略进行模型训练,得出无人船的控制策略参数;
无人船根据控制策略参数执行路径跟踪任务。
可选的,所述对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数,包括:
建立MDP模型,所述MDP模型包括:时刻为t时无人船所处的状态st;时刻t时无人船所采取的动作at,其取自动作空间,根据控制策略参数给出;奖励函数rt,表示时刻t时、采取动作at后,无人船获得的奖励值;衰减率γ,表征智能体对当前奖励和未来奖励重视情况;状态转移概率P,表示在状态st采取动作at后,状态转移到st+1的概率;
定义状态st,建立状态st与无人船完成路径跟踪任务所需信息的数量关系;
定义动作at,将动作at定义为无人船推进模块所提供的推进力与推进力的角度的函数;
基于无人船路径跟踪的目标定义奖励函数,所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞。
可选的,所述无人船完成路径跟踪任务所需信息包括无人船当前位置与既定轨迹之间的垂直距离、无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角、无人船当前位置与目标点之间的欧式距离、无人船速度与船头方向的夹角、风速、无人船当前位置与障碍物之间的欧式距离、无人船速度与障碍物速度之间夹角、障碍物的速度、无人船的航速偏差角、推进器提供的推力方向与无人船速度方向的夹角。
可选的,所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。
可选的,所述采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海之韵(苏州)科技有限公司,未经海之韵(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110149076.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小肠营养隔离减肥管
- 下一篇:一种负氧离子发生器