[发明专利]基于深度卷积神经网络的单目6D姿态估计方法及装置有效
申请号: | 202110111487.0 | 申请日: | 2021-01-27 |
公开(公告)号: | CN112767486B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 季向阳;王谷 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T3/40;G06V10/46;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 李岩 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 卷积 神经网络 姿态 估计 方法 装置 | ||
1.一种基于深度卷积神经网络的单目6D姿态估计方法,其特征在于,包括以下步骤:
对RGB图像进行检测得到目标物体区域,将包含目标物体的区域缩放到固定尺度;
将缩放后的RGB图像输入卷积神经网络,得到物体的分割掩码、物体的三维模型坐标投影图,以及物体的三维模型表面区域注意力图,将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图;
将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态;
对所述卷积神经网络进行训练时,物体的三维模型表面区域注意力图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到,在二维图像上的每个物体前景像素上,其三维模型表面区域注意力图为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号;
所述卷积神经网络由卷积层,残差卷积模块,反卷积层,和上采样层构成,输入的目标图像块的空间尺度先被缩小到1/32,然后放大到输入尺度的1/4,物体分割掩码的通道数为1,物体的三维模型坐标投影图的通道数为3,物体三维模型表面区域注意力图的通道数为S+1,其中,S是三维模型的表面区域数;
所述神经网络模块的Patch-PnP网络由卷积层和全连接层构成,采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32,再将卷积层输出的特征拉平,通过全连接层分别回归旋转和平移。
2.根据权利要求1所述的方法,其特征在于,对所述卷积神经网络进行训练时,物体的三维模型坐标投影图的真实标注采用渲染的方法得到,将物体的三维模型的每个顶点的颜色用顶点的坐标代替,在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。
3.根据权利要求1所述的方法,其特征在于,旋转R的回归采用6维的向量R6d,取自3×3旋转矩阵R的前两列,对于任意网络输出的6维旋转向量R6d=[r1|r2],根据旋转矩阵的正交性,解出3×3的旋转矩阵R=[R.1|R.2|R.3]:
其中,φ表示向量归一化操作,×表示向量的叉乘。
4.根据权利要求1所述的方法,其特征在于,平移t的回归采用尺度不变的平移量tSITE=[δx,δy,δz]T,即预测原始图像中目标物体的矩形包围框的中心(cx,cy)和物体在图像上的投影中心(ox,oy)之间的相对距离(δx,δy),以及物体与相机之间的相对距离δz:
其中,w和h为原始图像中目标物体的矩形包围框的宽和高,r为原始图像中目标物体的尺度与网络输入图像块的尺度szoom之间的缩放系数r=szoom/max(w,h),根据网络的预测平移量,通过逆投影得到3D的平移量t=K-1tz[ox,oy,1]T,其中,K为相机的内部参数。
5.根据权利要求1所述的方法,其特征在于,网络损失函数为L=LGeom+LPose,其中,LGeom为几何损失,LPose为6D姿态回归损失;几何损失函数LGeom为:
其中,CE表示交叉熵损失函数,和分别表示真实标注和预测量,⊙为逐点乘法,表示只计算MXYZ和MRegion的前景部分的损失函数;
6D姿态回归损失为:
其中,M为物体的3D模型,x∈M为3D模型上的点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110111487.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于静电保护的可控硅结构
- 下一篇:一种外波轮形增强复合管