[发明专利]基于模板匹配和概率分布的物体位姿估计方法在审
申请号: | 202211343422.X | 申请日: | 2022-10-29 |
公开(公告)号: | CN115761734A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 柯逍;黄森敏 | 申请(专利权)人: | 福州大学 |
主分类号: | G06V20/70 | 分类号: | G06V20/70;G06V10/26;G06V10/40;G06V10/74;G06V10/75;G06V10/764;G06V10/82 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模板 匹配 概率 分布 物体 估计 方法 | ||
1.基于模板匹配和概率分布的物体位姿估计方法,其特征在于,包括以下步骤:
步骤S1:对位姿估计训练集进行语义分割;
步骤S2:将步骤S1语义分割检测到的目标与渲染模板匹配,生成初始的视点估计;
步骤S3:利用深度学习网络学习输入图像像素和匹配模板之间的密集2D-2D对应关系,进而生成图像像素与3D模型之间的2D-3D对应;
步骤S4:使用可微分的pnp层生成目标物体的六自由度信息,利用位姿的概率分布进行指导,生成最终的位姿解。
2.根据权利要求1所述的基于模板匹配和概率分布的物体位姿估计方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11:从网络上获取公开的位姿估计数据集,得到用于模型训练的RGB图像和3D模型;
步骤S12:使用预训练操作后的语义分割网络SFE从输入图像I中提取特征;首先,计算网络N个深度维度的特征,这些特征的索引为k,满足其中,表示非负整数集,N表示语义分割网络的深度维度;因此,SFE中第k个深度的网络为满足其中,表示实数集,Hk和Wk表示第k个深度输入网络的图像宽度和高度,Dk表示第k个深度输入网络的通道数;代表特征提取器,沿着每个深度特征映射的的高度和宽度对进行空间平均扩展,产生长度为Dk的单个向量;
步骤S13:使用一组基于视点的模板来描述纹理化的3D模型,这些模板通过渲染目标生成,用来计算目标图像的特征图和来自目标描述符的特征之间的每像素相关性;
首先,将输入目标的RGB图像转换为第k个深度下的3D特征张量fk,计算公式如下:
然后,将沿着xyz轴采样的目标模板转换为相应的密集模型描述符ok,计算公式如下:
其中,模型描述符ok表示第k个深度维度下从围绕物体的球体上虚拟视点渲染的所有模板,Xk和Yk表示第k个深度维度下目标坐标系的相机位置,Zk表示第k个深度维度下平面内旋转,Dk表示第k个深度维度下分割网络从每个模板提取的特征图,表示物体3D模型的点集;
最后,特征图fk中的每个像素与整个对象描述符ok相匹配,从而产生相关张量这样,目标图像特征图的每个像素得到其特征向量与描述符的所有特征向量的所有相关性的列表;相关性用于计算图像中逐像素的注意力,将原始图像特征合并到特征张量中,并利用得到的注意力进行更精确的分割;
步骤S14:解码器使用类似UNet结构,先对特征图进行上采样,然后对卷积层进行上采样,直到达到初始图像的尺寸;解码器在每一级使用堆叠操作;
步骤S15:训练网络来预测每个像素包含目标的可见部分的概率,生成并输出目标物体二进制分割掩码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211343422.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于生产ELS板材的拖浆制板机
- 下一篇:一种基于心跳包的SIM切换方法