[发明专利]一种结合深度信息的物品查找方法有效
申请号: | 202010371559.0 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111523545B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 纪刚;商胜楠 | 申请(专利权)人: | 青岛联合创智科技有限公司 |
主分类号: | G06V10/25 | 分类号: | G06V10/25;G06T7/50;G06T7/70;G06F16/53;G06V10/764;G06V20/40;G06V20/10;G06V10/774;G06V10/82;G06N3/0464 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 于正河 |
地址: | 266200 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 深度 信息 物品 查找 方法 | ||
1.一种结合深度信息的物品查找方法,其特征在于:包括物品主体检测及类别预测、深度图获取、物品查找;其具体工艺步骤如下:
S1、物品主体检测及类别预测:
采用物品检测算法训练物品检测模型,然后定位出视频图像中用户感兴趣的区域,并根据物品检测模型预测出对应的类别;物品检测算法采用改进的mask rcnn算法;所述S1的具体过程如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比为1/4的从网上下载的训练样本,及第三部分为样本量占比为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
S1211、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,以节省大量的样本标注时间;
S1212、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到输出的预测类别、目标区域的轮廓信息和边界框,作为最后的检测结果;所述S14的目标检测具体工艺流程如下:
(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;
(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI;
(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;
所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;
(5)将(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;
(6)根据(5)得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;
(7)通过opencv函数minAreaRect()获取(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高及旋转角度;
(8)将(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将(5)得到的预测类别、(6)分割的目标区域的轮廓信息和(9)得到的边界框输出作为最后的检测结果;
S2、深度图获取:
使用机器人身上装配的双目相机进行视频图像采集;通过双目相机获取视频中目标的深度图信息,进而确定目标距相机的真实距离;具体步骤如下:
(b1)对双目相机进行标定,得到两个相机的内外参数、单应矩阵;
(b2)根据标定结果对双目相机采集的两张原始图像进行校正,使得校正后的两张图像位于同一平面且互相平行;
(b3)对校正后的两张图像进行像素点匹配;
(b4)根据匹配结果计算每个像素的深度,从而获得深度图;各个像素点的深度信息由下式求出:
其中,z即为待求的距离,f表示相机的焦距,b表示双目相机的基线,d表示视差,uL表示左侧相机成像平面的坐标,uR表示右侧相机成像平面的坐标;
(b5)对每张检测图像生成其对应的深度图,深度图记录了检测图像中每个像素点距离相机的距离,根据检测到的目标边框信息对应到深度图中的相应位置,确定该目标距相机的真实距离,进而告知用户检测到的目标与用户的实际距离长度,方便用户观察和找到目标;
S3、物品查找
物品查找时,按照规划的路径对沿线目标进行图像采集,通过物品检测算法对获取视频帧图像处理预测出目标的类别,基于深度图获取算法计算目标距离相机的真实距离,核验检测到的目标类别与需要寻找的目标类别是否一致,核实一致后以语音播报的方式告诉用户目标的具体位置;物品查找分两种情况:大类物品查找与子类物品检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛联合创智科技有限公司,未经青岛联合创智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010371559.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗菌抗病毒整理剂及其制备方法与使用方法
- 下一篇:数据传输方法及相关设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置