[发明专利]基于视觉深度估计的无人水下航行器自主决策控制方法有效
申请号: | 202010121857.4 | 申请日: | 2020-02-26 |
公开(公告)号: | CN111340868B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 刘彦呈;朱鹏莅;姚书翰;马川;赵友涛;吕寅新;张珍睿;许晨 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06T7/80;G06N3/0455;G06N3/0464;G06N3/092;G06N3/084 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 深度 估计 无人 水下 航行 自主 决策 控制 方法 | ||
1.一种基于视觉深度估计的无人水下航行器自主决策控制方法,其特征在于包括:
实时提取水下航行器拍摄到的视频图像,将视频图像分帧处理后输入至几何分析深度估计网络中,对图像的深度特征进行提取,获得水下航行器与障碍物的距离和轮廓特征信息,并将其合成深度图像;将连续多帧深度图像输入至自主决策控制网络中,采用卷积神经网络提取整合深度图像中的深度特征,将深度特征作为状态信息输入至强化学习网络中进行训练,经不断迭代优化获得对应于水下航行器的线速度和角速度;
其中几何分析深度估计网络包括深度估计网络和自我运动估计网络;深度估计网络采用完全卷积的编码器-解码器结构,通过设计两种编码器网络结构进行比较,搭建基础的卷积层和反卷积层神经网络完成图像的下采样和上采样;将以时间序列的连续三帧单目视觉RGB图像和摄像机内参矩阵K输入至深度估计网络中,使用深度神经网络估计深度和分析自我运动状态,进而从RGB图像中获得密集深度图,将两帧RGB图像序列输入至自我运动估计网络中,生成时间序列两帧图像之间的SE3变换矩阵,规范两帧图像之间的平移和旋转参数,通过将一帧图像转换为相邻一帧的图像实现对场景不同视角的想象,对当前帧图像进行自我运动估计从而映射为下一帧图像;
其中自主决策控制网络包括卷积神经网络和强化学习控制网络;
在时刻t∈[0,T]通过单目相机深度估计图像xt执行动作策略at=π(xt),根据强化学习控制网络中的奖励函数得到奖励值rt,观测下一时刻的相机深度图像xt+1,在自主决策控制网络中,采用梯度下降法最大化累积奖励值Rt,
其中强化学习控制网络利用一个目标网络和一个在线网络,目标网络是在线网络的副本、与在线网络在每个训练步骤通过反向传播更新权值不同,目标网络的权值在短时间内被固定、从在线网络复制;在双网络设置的基础上,设计水下航行器奖惩机制,利用神经网络的非线性特性不断迭代优化,分别利用在线和目标网络进行动作选择和最优状态估计。
2.根据权利要求1所述的基于视觉深度估计的无人水下航行器自主决策控制方法,其特征还在于:通过将映射到下一帧的场景与真实的下一帧图像Ij在RGB空间中进行像素损失对比,建立深度估计网络的监督信号;
其中图像重构损失为上一帧到当前帧的最小重构损失Lrec,最小重构损失的具体损失函数如下:
该几何分析深度估计网络将重构损失、SSIM损失和深度平滑损失相融合,其总的损失函数如下:
其中αj为超参数,Lssim为图像SSIM损失,Lsm为深度平滑损失。
3.根据权利要求2所述的基于视觉深度估计的无人水下航行器自主决策控制方法,其特征还在于:累积奖励值Rt表达式为:
其中γ是折扣因子;
在水下航行器强化学习控制网络的每一轮迭代过程中,设计动作策略at=π(xt),则整体的状态-动作的值函数被定义为:
Qπ(xt,at)=E[Rt|xt,at,π]
上述等式通过贝尔曼等式整理为:
Qπ(xt,at)=E[rt+γE[Qπ(xt+1,at+1)|xt,at,π]
在每次迭代中选择最优动作决策,得到最优Q值函数为:
通过当前t时刻的奖励值rt加上t+1时刻的折扣最优Q*值得到当前的最优Q值函数,利用深度神经网络的非线性逼近特性不断迭代优化网络权重,直至水下航行器具备自主决策控制能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010121857.4/1.html,转载请声明来源钻瓜专利网。