[发明专利]基于神经网络的物体分类和位姿估计方法有效
申请号: | 201810243399.4 | 申请日: | 2018-03-23 |
公开(公告)号: | CN108491880B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 张向东;张泽宇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06T7/73;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 物体 分类 估计 方法 | ||
1.基于神经网络的物体分类和位姿估计的方法,包括:
(1)获得训练集和测试集,设定CAD模型对应的图像:
从ModelNet10数据集中取出3429个CAD模型作为训练集,取出1469个CAD作为测试集;
对ModelNet10数据集中每个样本的CAD模型,依次进行两种策略的预处理:第一种是在CAD模型所在的视角圆上均匀地设置12个预定义的视点,在这12个预定义的每一个视点采集CAD模型对应的图像;第二种是将CAD模型放置在正十二面体中心,将正十二面体的20个顶点设置为预定义的视点,在这20个预定义的每一个视点采集CAD模型对应的图像;
(2)根据对数据集中每个CAD模型预处理得到的多视角图像,构建联合检测的数学模型:
(2a)将每个CAD模型的视角标签作为隐变量,记为{vi};
(2b)将CAD模型不同视角的M个图像和CAD模型的类别标签y∈{1,..,N},定义为训练样本,其中N为CAD模型的总类别数,每个视角图像xi,分别对应一个视角标签vi∈{1,..,M};
(2c)根据以上对训练样本的定义,将物体识别和位姿估计任务抽象为如下的优化问题:
其中R是神经网络权值参数,为神经网络预测的类别标签,
是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率;
(3)构建并训练卷积神经网络CNN:
(3a)在现有AlexNet网络的基础上,增加了Eltwise1层、fc_a1层、fc_a2层、Eltwise2层,得到一个含有16个层卷积神经网络CNN,其中:
该Eltwise1层用于将AlexNet网络中Conv3层与Conv4层的特征图对应位置进行融合;
该fc_a1层用于将Eltwise1层特征图映射为特征向量;
该fc_a2层将AlexNet网络中Pool5层特征映射为特征向量;
该Eltwise2层用于对fc_a1层、fc_a2层和Eltwise1层的特征图对应位置进行融合;
(3b)将训练集中的每个CAD模型的多视角图像输入到卷积网络中,迭代卷积神经网络CNN的前向计算和反向传播训练神经网络,优化神经网络参数R,直到神经网络的损失函数J≤0.0001为止,得到训练好的神经网络CNN;
(4)测试网络
将ModelNet10测试集中每一个CAD模型的多视角图像输入到训练好的神经网络中,统计物体分类和姿态估计的精度。
2.根据权利要求1所述的方法,其中步骤(1)的第一种预处理策略在CAD模型所在的视角圆上均匀地设置12个预定义的视点,是先固定一个轴作为旋转轴,再在物体所在的视角圆上每隔30度设置一个观察点,即在360度的视角圆上,得到每个CAD模型对应12个不同视角的图像。
3.根据权利要求1所述的方法,其中步骤(2c)中优化问题,其实现如下:
将记为则优化问题表达为如下的形式:
其中(i)表示输入图像xi,k表示图像xi的类别标签,j表示图像xi是从第j个预定义视点观察到的,R是神经网络权值参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810243399.4/1.html,转载请声明来源钻瓜专利网。