[发明专利]一种基于强化学习的无人船路径跟踪方法有效
申请号: | 202110149076.0 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112947431B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 张卫东;董博韬;孙志坚;徐鑫莉;黄梦醒;张永辉;吴迪 | 申请(专利权)人: | 海之韵(苏州)科技有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 范奇 |
地址: | 215400 江苏省苏州市太*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无人 路径 跟踪 方法 | ||
1.一种基于强化学习的无人船路径跟踪方法,其特征在于,包括如下步骤:
设定无人船的跟踪路径;
对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;
采用PPO算法对控制策略进行模型训练,得出无人船的控制策略参数;
无人船根据控制策略参数执行路径跟踪任务;
所述对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数,包括:
建立MDP模型,所述MDP模型为(st,at,rt,γ,P(st+1|st,at));
包括:时刻为t时无人船所处的状态st;时刻t时无人船所采取的动作at,其取自动作空间,根据控制策略参数给出;奖励函数rt,表示时刻t时、采取动作at后,无人船获得的奖励值;衰减率γ,表征智能体对当前奖励和未来奖励重视情况;状态转移概率P(st+1|st,at),表示在状态st采取动作at后,状态转移到st+1的概率;
定义状态st,建立状态st与无人船完成路径跟踪任务所需信息的数量关系:
其中,et为无人船当前位置与既定轨迹之间的垂直距离;ζt为航线偏差角,其具体为无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角,相应的为航向偏差角的导数;为无人船当前位置xt与目标点xtarget之间的欧氏距离;和分别为无人船速度vt在船体坐标系两个坐标轴上的投影,φ为无人船速度与船头方向的夹角;为由无人船上携带的风速计测得的风速参数;||xobstacle-xt||2为无人船当前位置与障碍物体xobstacle(雷达)之间的欧氏距离;|ψ-ψobstacle|为无人船速度与障碍物速度之间夹角;为障碍物的速度;为无人船的航速偏差角;η为推进器提供的推力方向与无人船速度方向的夹角;
定义动作at,将动作at定义为无人船推进模块所提供的推进力与推进力的角度的函数;
at=[ft δt]:
其中ft和δt分别为无人船推进模块所提供的推进力与推进力的角度;
基于无人船路径跟踪的目标定义奖励函数,所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞。
2.根据权利要求1所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。
3.根据权利要求1所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数,包括:
使用优势函数估计器计算现行动作策略下,各个动作的优势函数值,并传给Actor网络和Critic网络进行后续更新;
Actor网络给出当前状态下无人船能够获得最大奖励值的动作,并根据优势函数的估计值和Critic网络的评估值来进行迭代更新,并引入clip函数,将每次更新的步长限制在一个合理的范围内,以此来保证动作策略的逐步提升;
Critic网络根据优势函数的估计值和Actor网络的输出值来分析当前策略动作值的好坏程度,并根据MDP的状态转移来进行更新;
引入跟踪总误差函数判断训练过程是否结束,当跟踪总误差小于设定值时,判定跟踪精度满足要求,得出控制策略参数,结束训练,否则重复上述训练步骤。
4.根据权利要求3所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述控制策略参数为训练完成的Actor网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海之韵(苏州)科技有限公司,未经海之韵(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110149076.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小肠营养隔离减肥管
- 下一篇:一种负氧离子发生器