[发明专利]一种基于深度学习的单目相机物体位姿估计方法及装置有效
申请号: | 201910043902.6 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109816725B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 刘振;范晓东;王亚运;程栋梁;金霞红;赵福臣 | 申请(专利权)人: | 合肥哈工慧拣智能科技有限公司 |
主分类号: | G06T7/73 | 分类号: | G06T7/73 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
地址: | 236000 安徽省合肥市经济技术开*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 相机 物体 估计 方法 装置 | ||
1.一种基于深度学习的单目相机物体位姿估计方法,其特征在于,所述方法包括:
1)、根据所获取的物体处于不同姿态时的三维图像在二维空间内的投影,以及所述投影对应的物体坐标以及物体的标签文件生成训练集和验证集,其中,所述标签文件包括:物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合;
2)、利用级联卷积神经网络模型学习训练集,并迭代超参数;
所述步骤2),包括:
A:使用SSD模型提取出训练集图像的特征,将提取的特征、物体坐标以及物体的标签文件输入当前级联卷积神经网络进行训练,得到预测的物体种类、物体边界框和物体三维位姿点;
B:利用整体损失函数,评价训练后的当前级联卷积神经网络的整体损失,其中,
L()为训练后的当前级联卷积神经网络的整体损失;N为匹配到的符合条件的候选区域个数;Lconf()为置信度损失函数;x为预测坐标和真实坐标之间的距离;c为置信度;l为预测的二维位置坐标;g为真实位置坐标;Lloc()为位置损失函数;Lcnr()为三维位姿点的损失函数;q为预测三维姿态关键点;k为真实姿态点;
C:判断所述整体损失是否小于第二预设阈值;
D:若是,将当前网络作为训练后的卷积神经网络;
E:若否,按照随机梯度下降算法对当前网络进行优化,并将优化后的网络作为初始级联卷积神经网络,并返回执行所述A步骤,直至所述整体损失小于第二预设阈值,进而得到训练后的卷积神经网络;
3)、使用测试集测试训练后的级联卷积神经网络模型,在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时,使用所述训练后的级联卷积神经网络模型进行物体位姿估计;
所述步骤3),包括:
F:使用测试集测试训练后的级联卷积神经网络模型,判断训练后的级联卷积神经网络模型的准确率是否达到第一预设阈值;
G:若是,使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计;
H:若否,调整所述级联卷积神经网络模型中的超参数,并返回执行所述步骤2),直至训练后的级联卷积神经网络模型的准确率不小于第一预设阈值,进而使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计;
I:使用PNP算法将二维图像中的物体三维位姿点映射到三维空间中,得到初始化位姿关键点;
J:使用ICP算法对初始化位姿关键点进行优化,得到物体的最终位姿。
2.根据权利要求1所述的一种基于深度学习的单目相机物体位姿估计方法,其特征在于,在步骤1)之前,所述方法还包括:
使用ImageNet库对级联卷积神经网络模型进行预训练。
3.根据权利要求1所述的一种基于深度学习的单目相机物体位姿估计方法,其特征在于,所述步骤1),包括:
使用投影矩阵将物体处于不同姿态时的三维模型转换为二维图像,其中,所述三维模型包括:含有单个物体的三维模型和含有两个或者两个以上的三维模型;
将所述二维图像转换到HSV色彩空间并剪裁掉黑色背景;
再将转换到HSV色彩空间的二维图像转换到RGB色彩空间;
将转换到RGB色彩空间的二维图像裁剪成设定尺寸;
获取每一个二维图像对应的标签文件,并将所述标签文件对应到裁剪后的二维图像,并将对应标签文件后的二维图像的集合划分为训练集和验证集,其中,所述标签文件包括:物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥哈工慧拣智能科技有限公司,未经合肥哈工慧拣智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910043902.6/1.html,转载请声明来源钻瓜专利网。