[发明专利]基于双神经网络强化学习的自主水下航行器路径规划方法有效

申请号：	202110253524.1	申请日：	2021-03-09
公开（公告）号：	CN113064422B	公开（公告）日：	2022-06-28
发明（设计）人：	黄浩乾;李光辉;韩亦鸣;王冰	申请（专利权）人：	河海大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210024 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经网络强化学习自主水下航行路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双神经网络强化学习的自主水下航行器路径规划方法，其特征在于，包括以下步骤：

(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理；

(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法，并构建基于双神经网络强化学习算法的AUV智能路径规划框架；

(3)量化处理AUV的环境状态信息，将其与DQN算法相结合得到神经网络结构，并判断AUV运动方向与目标点位置关系，得到AUV智能规划路径的决策模型；

Q-learning学习算法将AUV当前状态s_t和执行动作a_t构成一张Q值表，命名为QNet，用于存放AUV每一时刻的状态和执行动作；然后根据Q值表来选取能够获得最大收益的下一步动作a_t+1，在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作，来减少Q值表所需的存储空间和查找Q值表所需要的时间；

所述步骤(2)包括以下步骤：

(21)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络：

Q_t+1(s,a)＝Q_t(s,a；θ)+β(r+γmax Q_t(s_t+1,a_t+1；θ_t)-Q_t(s_t,a_t；θ)) (2)

其中，Q_t+1(s,a)为根据Q值更新公式得到的目标函数值；Q_t(s,a)为根据s_t和a_t拟合出的当前函数值；β为学习率；r为即时反馈值；γ为折价系数；a为在状态s下AUV执行的动作；

(22)对记忆池进行初始化，并且利用参数θ初始化QNet网络，利用参数θ_t初始化目标网络Aim Net；θ为QNet中函数值的向量表示；θ_t为Aim Net中函数值的向量表示；

(23)将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息，初始化AUV开始状态信息为s₀,初始化AUV此后每一时刻的当前状态信息为s_t，时间为t；

(24)根据AUV当前状态信息s_t选择动作a_t：AUV的动作由QNet根据当前输入状态信息s_t下的预测值，选择神经网络输出层最大的Q值对应的动作a_t作为最优动作；

(25)执行动作a_t后，AUV的状态转移到下一状态信息s_t+1，并通过环境信息以及动作信息a_t和状态信息s_t+1的反馈，获得即时反馈值r_t；

(26)AUV在每次执行动作之后都会得到一组样本信息(s_t,a_t,r_t,s_t+1)，将样本信息存放到记忆池中，然后构造优先级数组来存放样本信息的优先级和位置索引信息；其中s_t为当前时刻AUV的状态；a_t为当前时刻状态下AUV执行的动作；s_t+1为执行动作a_t后AUV的状态；r_t为根据环境信息以及动作信息a_t和状态信息s_t+1获得的即时反馈值；

(27)获得一定数目的样本信息后，判断记忆池中的样本数量是否达到初始化权值θ，若达到θ则开始训练模型，若没达到则继续收集样本信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110253524.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于双神经网络强化学习的自主水下航行器路径规划方法有效

专利文献下载