[发明专利]一种基于强化学习的无人船路径跟踪方法有效

申请号：	202110149076.0	申请日：	2021-02-03
公开（公告）号：	CN112947431B	公开（公告）日：	2023-06-06
发明（设计）人：	张卫东;董博韬;孙志坚;徐鑫莉;黄梦醒;张永辉;吴迪	申请（专利权）人：	海之韵（苏州）科技有限公司
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	北京元本知识产权代理事务所(普通合伙) 11308	代理人：	范奇
地址：	215400 江苏省苏州市太***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习无人路径跟踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的无人船路径跟踪方法，其特征在于，包括如下步骤：

设定无人船的跟踪路径；

对无人船跟踪路径与避障过程建立MDP模型，并设置奖励函数；

采用PPO算法对控制策略进行模型训练，得出无人船的控制策略参数；

无人船根据控制策略参数执行路径跟踪任务；

所述对无人船跟踪路径与避障过程建立MDP模型，并设置奖励函数，包括：

建立MDP模型，所述MDP模型为(s_t,a_t,r_t,γ,P(s_t+1|s_t,a_t))；

包括：时刻为t时无人船所处的状态s_t；时刻t时无人船所采取的动作a_t，其取自动作空间，根据控制策略参数给出；奖励函数r_t，表示时刻t时、采取动作a_t后，无人船获得的奖励值；衰减率γ，表征智能体对当前奖励和未来奖励重视情况；状态转移概率P(s_t+1|s_t,a_t)，表示在状态s_t采取动作a_t后，状态转移到s_t+1的概率；

定义状态s_t，建立状态s_t与无人船完成路径跟踪任务所需信息的数量关系：

其中，e_t为无人船当前位置与既定轨迹之间的垂直距离；ζ_t为航线偏差角，其具体为无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角，相应的为航向偏差角的导数；为无人船当前位置x_t与目标点x_target之间的欧氏距离；和分别为无人船速度v_t在船体坐标系两个坐标轴上的投影,φ为无人船速度与船头方向的夹角；为由无人船上携带的风速计测得的风速参数；||x_obstacle-x_t||₂为无人船当前位置与障碍物体x_obstacle(雷达)之间的欧氏距离；|ψ-ψ_obstacle|为无人船速度与障碍物速度之间夹角；为障碍物的速度；为无人船的航速偏差角；η为推进器提供的推力方向与无人船速度方向的夹角；

定义动作a_t，将动作a_t定义为无人船推进模块所提供的推进力与推进力的角度的函数；

a_t＝[f_t δ_t]：

其中f_t和δ_t分别为无人船推进模块所提供的推进力与推进力的角度；

基于无人船路径跟踪的目标定义奖励函数，所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞。

2.根据权利要求1所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。

3.根据权利要求1所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述采用PPO算法对状态信息模型进行强化学习，得出无人船的控制策略参数，包括：

使用优势函数估计器计算现行动作策略下，各个动作的优势函数值，并传给Actor网络和Critic网络进行后续更新；

Actor网络给出当前状态下无人船能够获得最大奖励值的动作，并根据优势函数的估计值和Critic网络的评估值来进行迭代更新，并引入clip函数，将每次更新的步长限制在一个合理的范围内，以此来保证动作策略的逐步提升；

Critic网络根据优势函数的估计值和Actor网络的输出值来分析当前策略动作值的好坏程度，并根据MDP的状态转移来进行更新；

引入跟踪总误差函数判断训练过程是否结束，当跟踪总误差小于设定值时，判定跟踪精度满足要求，得出控制策略参数，结束训练，否则重复上述训练步骤。

4.根据权利要求3所述的基于强化学习的无人船路径跟踪方法，其特征在于，所述控制策略参数为训练完成的Actor网络参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。