[发明专利]基于双神经网络强化学习的自主水下航行器路径规划方法有效
申请号: | 202110253524.1 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113064422B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 黄浩乾;李光辉;韩亦鸣;王冰 | 申请(专利权)人: | 河海大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 强化 学习 自主 水下 航行 路径 规划 方法 | ||
1.一种基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,包括以下步骤:
(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理;
(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法,并构建基于双神经网络强化学习算法的AUV智能路径规划框架;
(3)量化处理AUV的环境状态信息,将其与DQN算法相结合得到神经网络结构,并判断AUV运动方向与目标点位置关系,得到AUV智能规划路径的决策模型;
Q-learning学习算法将AUV当前状态st和执行动作at构成一张Q值表,命名为QNet,用于存放AUV每一时刻的状态和执行动作;然后根据Q值表来选取能够获得最大收益的下一步动作at+1,在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作,来减少Q值表所需的存储空间和查找Q值表所需要的时间;
所述步骤(2)包括以下步骤:
(21)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络:
Qt+1(s,a)=Qt(s,a;θ)+β(r+γmax Qt(st+1,at+1;θt)-Qt(st,at;θ)) (2)
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值;Qt(s,a)为根据st和at拟合出的当前函数值;β为学习率;r为即时反馈值;γ为折价系数;a为在状态s下AUV执行的动作;
(22)对记忆池进行初始化,并且利用参数θ初始化QNet网络,利用参数θt初始化目标网络Aim Net;θ为QNet中函数值的向量表示;θt为Aim Net中函数值的向量表示;
(23)将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息,初始化AUV开始状态信息为s0,初始化AUV此后每一时刻的当前状态信息为st,时间为t;
(24)根据AUV当前状态信息st选择动作at:AUV的动作由QNet根据当前输入状态信息st下的预测值,选择神经网络输出层最大的Q值对应的动作at作为最优动作;
(25)执行动作at后,AUV的状态转移到下一状态信息st+1,并通过环境信息以及动作信息at和状态信息st+1的反馈,获得即时反馈值rt;
(26)AUV在每次执行动作之后都会得到一组样本信息(st,at,rt,st+1),将样本信息存放到记忆池中,然后构造优先级数组来存放样本信息的优先级和位置索引信息;其中st为当前时刻AUV的状态;at为当前时刻状态下AUV执行的动作;st+1为执行动作at后AUV的状态;rt为根据环境信息以及动作信息at和状态信息st+1获得的即时反馈值;
(27)获得一定数目的样本信息后,判断记忆池中的样本数量是否达到初始化权值θ,若达到θ则开始训练模型,若没达到则继续收集样本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110253524.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:圆筒内壁贴片装置
- 下一篇:一种用于广告板加工的印花设备