[发明专利]一种基于深度强化学习的无人艇航迹控制方法有效
申请号: | 202011353012.4 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112540614B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 仲伟波;李浩东;冯友兵;常琦;许强;林伟;孙彬;胡智威;齐国庆 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 杭行 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人 航迹 控制 方法 | ||
1.一种基于深度强化学习的无人艇航迹控制方法,其特征在于:包括如下步骤:
步骤一:初始化一个决策网络Q和一个目标网络Q′的网络参数;
步骤二:获得无人艇当前状态St,包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据,以及之前时刻舵角位置和螺旋桨输出动力的信息;
步骤三:对无人艇的状态信息进行预处理,对于船的大惯性将长度和角度信息的微分量引入到无人艇的状态信息;对于船的迟滞性将状态信息的积分量引入到状态信息,形成状态S′t,其中S′t=(St,St-1,St-2…St-λ);
步骤四:将状态S′t代入决策网络Q并根据策略π(ac|s)得到动作ac和奖励r,
奖励函数为:
r=k·rv·ry+rs+rz
其中:rv为速度奖励,以靠近当前目标航迹点方向上的速度设置奖励,无人艇与目标航迹的水平距离为xt,且xt≥0
ry为航迹控制奖励,无人艇航行贴线精度越高奖励越大,无人艇与目标航迹的垂直距离为yt,且yt≥0
rs为位置奖励,无人艇越靠近目标位置奖励越大,与目标航迹点距离越小,奖励越大,与目标航迹点距离为
无人艇到达目标航迹点的范围阈值d内,无人艇的当前航迹点更新为下一航迹点;
rz为避障奖励,通过避障传感器无人艇可以获得无人艇前方障碍物信息,以无人艇航行速度的大小设置动态的安全距离gvd,当小于安全距离时无人艇获得负奖励,
以上公式中字母a,b,c,d,g,h,k均为常数;
步骤五:执行动作并进入下一状态St+1并预处理得到状态S′t+1;
步骤六:将(St′,S′t+1,ac,r)作为一条数据连同采样优先级存储到经验池中;
步骤七:以采样优先级作为采样概率的依据采样m条数据,投入目标网络得到损失函数ω;
步骤八:用损失函数ω更新决策网络Q;
步骤九:若i>=n,则用决策网络Q的参数更新一次目标网络Q′,且令i=0,
i为决策网络Q的更新次数,n为预设常量;
步骤十:观察是否达到训练结束条件,达到了就结束训练,否则跳转到步骤二。
2.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤二中,将之前时刻舵角,螺旋桨输出动力这些动作信息也作为状态信息,作为当前状态信息的一部分。
3.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤三中,将状态S′t输入到状态动作值函数网络中,使不满足马尔科夫性的大迟滞系统也可一定程度上满足马尔科夫性。
4.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤二中,动态调整训练神经网络的数据被采样的概率,促进最新的数据能被尽早被利用,保证所有数据被均匀地使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011353012.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:导航方法和车载导航设备
- 下一篇:一种具有成品老化检测装置的控制器