[发明专利]一种级联解耦的位姿估计方法有效
申请号: | 202110725433.3 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113436254B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 周文晖;孙煨;郎巍;王威盛;闫正茂;张桦;吴以凡;戴国骏 | 申请(专利权)人: | 杭州电子科技大学;浙江华立智能装备股份有限公司 |
主分类号: | G06T7/70 | 分类号: | G06T7/70;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 级联 估计 方法 | ||
1.一种级联解耦的位姿估计方法,其特征在于,包括如下步骤:
步骤S1:基于位姿解耦公式,设计级联解耦位姿估计网络;
步骤S2:设计基于级联解耦位姿估计的迭代网络;
步骤S3:定义级联解耦位姿估计网络和基于级联解耦位姿估计的迭代网络的损失函数;
所述步骤S1具体方法如下:
所述的位姿解耦公式具体表述为:
对于相邻两帧图像Ig和Is,场景点在图像Ig上的投影像素点为pg,在图像Is上的投影像素点为ps,根据相机内参矩阵K、相机位姿矩阵Pg→s、像素点pg在相机坐标系下的深度值zg和像素点ps在相机坐标系下的深度值zs,像素点pg和像素点ps满足刚性运动的投影公式,具体为:
其中Pg→s为相机从第g帧到第s帧的相机位姿矩阵,Pg→s由一个3×3的旋转矩阵R和一个3×1的平移矩阵T组成,它能够转化为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
其中,
其中,PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵;
将公式(1)代入公式(2)可得:
根据公式(4),能够得到像素点pg和像素点ps的级联相乘的公式:
其中公式(5)的第一行为解耦平移矩阵PT的投影公式,公式(5)的第二行为解耦旋转矩阵PR的投影公式;公式(5)称为位姿解耦估计公式,将相机位姿矩阵Pg→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计;
所述的级联解耦位姿估计网络包括四个子网络,分别是平移估计网络T-Net、平移优化网络T-RefineNet、旋转估计网络R-Net和旋转优化网络R-RefineNet;T-RefineNet和R-RefineNet分别与T-Net和R-Net的结构相同;
级联解耦位姿估计网络的具体表述为:
在公式(2)的基础上,对旋转矩阵和平移矩阵进一步优化,公式如下所示:
其中,
将公式(6)代入公式(1),将公式(1)划分成四个级联部分,然后设计一个级联解耦位姿估计网络,即DecoupledPoseNet;它的网络输入为连续两帧的左相机图像It和It+1,输出为t时刻相对于t+1时刻的相机位姿Pt→t+1,为了得到更加准确的结果,这里同时输出了一个中间结果P′t→t+1,并且:
所述步骤S2具体方法如下:
所述的基于级联解耦位姿估计的迭代网络包括一个视差估计网络UnDispNet,一个光流估计网络UnFlowNet和一个级联解耦的位姿迭代网络DecoupledPoseNet_1DecoupledPoseNet_2,通过视差估计网络UnDispNet和光流估计网络UnFlowNet的输出结果得到用于处理图像中的运动对象的掩膜;
所述的视差估计网络UnDispNet和光流估计网络UnFlowNet采用了与UnOS中DispNet和FlowNet相同的网络结构;
所述的视差估计网络UnDispNet的结构为一个包含了编码子网和解码子网的U型网络;编码子网的输入为连续两帧的左相机图像It和It+1,通过卷积和下采样提取深层特征信息;解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到连续两帧的视差图dt和dt+1;对于视差图d,u为图像空间的水平方向坐标,v为图像空间的垂直方向坐标,则像素点(u,v)的视差值为d(u,v),其深度值z的计算公式为:
其中B为车载双目立体相机的基线,f为车载双目立体相机的焦距;
所述的光流估计网络的结构为一个包含了编码子网和解码子网的U型网络;编码子网由六层光流特征抽取层构成,每一层的光流特征抽取层是由一个步长为2,大小为3×3的卷积核和一个步长为1,大小为4×4的卷积核以及两个Leaky ReLU激活函数构成;光流特征抽取层的第一层是步长为2的卷积层,其作用是特征信息抽取和降采样作用,第二层是步长为1的卷积层,其作用为了对降采样后的特征块信息作细化处理;每一张图像经过六层光流特征抽取层处理获得一个六层的特征金字塔;编码子网的输入是连续两帧的左相机图像It和It+1,输出是两帧的特征金字塔;
解码子网利用六层光流特征金字塔结构逐级优化光流,使用了由粗到细(From coarseto fine)的方式来优化光流结果;解码子网能够拆分为六层子网络结构,每层子网络结构中包含了图像特征代价空间生成器和光流估计网络;第一层子网络用来获取初始小尺寸光流图,第二层至第六层逐级扩大光流图尺寸,并以残差形式优化光流图;
所述的用于处理图像中的运动对象的掩膜具体表述为:
t+1时刻的图像It+1通过warp得到t时刻的合成图像;图像It和It+1之间存在遮挡区域,遮挡区域会导致合成图无法和原图像It保持一致;根据视差估计网络输出的视差图和相机位姿能够获得图像It和It+1之间对应的刚性流图,刚性流图能够描述图像It中静态对象区域和图像It+1中对应区域的像素位移;由于刚性流图无法正确描述运动对象的像素点变换关系,通过刚性流获得的合成图无法正确表示运动对象区域;因此,针对运动对象,使用反向光流图生成光流遮挡图用来解决运动对象导致的遮挡区域在原图上不一致的问题;
首先根据光流估计网络UnFlowNet得到光流图,然后通过刚性流图和光流图进行差异比较,得到运动对象区域掩膜;首先,比较获取的刚性流和光流的差异获得Fdiff,具体公式为:
其中和分别表示x轴和y轴上的光流,和分别表示x轴和y轴上的刚性流;Fdiff中大于阈值的区域表示刚性流和光流不一致的区域,Fdiff中小于阈值的区域表示刚性流和光流一致的区域;Fdiff在阈值λdiff下进行二值化,得到的二值化图Mdiff分成一致区域和非一致区域,具体公式为:
Mregion是二值化后的遮挡掩膜图,其为了将Mdiff中错误的掩盖区域去除,使得Mmotion仅包含了非刚体部分的二值化运动分割掩膜,具体公式为:
所述的基于级联解耦的位姿迭代网络DecoupledPoseNet_1DecoupledPoseNet_2的具体表述为:
基于级联解耦的位姿迭代网络包括级联解耦优化结构DecoupledPoseNet_1和级联解耦优化结构DecoupledPoseNet_2,这两个结构与上述的DecoupledPoseNet结构相同;为了叙述方便,此处采用step1和step2代替;通过step1结构和step2结构获得四个相机位姿;通过step1结构获得和两个相机位姿,此处将记为将记为step2结构将step1结构得到的相机位姿作为输入,获得和两个相机位姿,此处将记为将记为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;浙江华立智能装备股份有限公司,未经杭州电子科技大学;浙江华立智能装备股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110725433.3/1.html,转载请声明来源钻瓜专利网。