[发明专利]一种基于RGB-D相机的卷积神经网络目标检测方法有效
申请号: | 201910016289.9 | 申请日: | 2019-01-08 |
公开(公告)号: | CN109903331B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 杨宇翔;杜宇杰;高明煜;张敬 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/70 | 分类号: | G06T7/70;G06T7/50;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于RGB‑D相机的卷积神经网络目标检测方法。目前越来越多的目标检测算法都利用了卷积神经网络来对目标物体进行定位。然而大部分的卷积神经网络框架都只是利用彩色相机对目标物体的位置进行预测。然而只利用RGB信息,要使卷积神经网络达到较高的检测精度有很大的难度,需要综合考虑卷积神经网络建模,训练方案等诸多方面因素,较难实现。本发明利用了RGB‑D相机采集的深度图,辅助卷积神经网络对目标物体的位置进行预测。利用深度图像中的距离信息,能对目标物体的尺寸大小预先估计,减轻卷积神经网络的建模难度,提升网络的检测精度。 | ||
搜索关键词: | 一种 基于 rgb 相机 卷积 神经网络 目标 检测 方法 | ||
【主权项】:
1.一种基于RGB‑D相机的卷积神经网络目标检测方法,其特征在于该方法的具体步骤是:步骤(1):利用RGB‑D相机获取彩色图像和深度图像使用RGB‑D相机对于包含目标物体的场景进行拍摄,得到一张彩色图像和与彩色图像像素一一对应的深度图像;步骤(2):利用卷积神经网络对于目标物体位置进行预测(a)先收集包含目标物体的数据集,手工标定目标框,使目标框刚好能包含目标物体;统计数据集中目标框的长宽比,利用k均值聚类产生k个长宽比例值;然后产生k个面积为1的锚框,锚框的长宽比分别对应于聚类产生的k个值,就得到k个形状不一的锚框;(b)将彩色图片输入卷积神经网络,产生预测结果参数;预测结果参数为若干组五维向量参数,为N×k×(score,cx,cy,dw,dh),其中N表示卷积神经网络最后一层特征图上的像素点的个数,k表示锚框数量,score表示网络输出在当前位置区域的预测框存在物体的置信值,cx和cy分别表示预测框中心点的坐标,dw和dh表示在当前位置对于某个特定锚框长宽的修正量;利用以下公式,对锚框的形状进行修正,就可以得到一个面积为1的预测框:![]()
其中Pw和Ph表示锚框的长和宽,
和
表示面积为1的预测框的长宽;经过以上步骤,将彩色图片输入到卷积神经网络,得到一系列的预测框,每个预测框包含置信值,中心坐标和长宽;选取一个阈值,将置信值低于该阈值的预测框除去,就能滤除大量不包含物体的预测结果;步骤(3):求解从深度值到目标物体尺寸的映射关系模型利用卷积神经网络得到目标物体中心坐标,将其映射到深度图上;得到物体中心点深度值,也就是物体与摄像头沿相机光轴的距离h;假设摄像头的焦距为f,目标物体的尺寸为l,目标物体在相机成像平面上的投影为s,即为尺度因子;根据相似三角形的性质,得到s如下:![]()
s与h之间存在反比关系,利用步骤(1)中得到的图库,得到多组(s,h)关系对,利用线性回归算法求得f与l的乘积值,得到一个从深度到物体尺寸的反比模型;步骤(4):产生带尺度的预测框利用步骤(2)中产生的目标物体的中心位置,找到深度图像上对应位置的深度信息,并利用步骤(3)中的模型关系得到尺度因子s;将s与步骤(2)中的面积为1的预测框的长宽相乘,得到带尺度的预测框;步骤(5):利用soft‑NMS算法去除多余的预测框经过以上步骤,在同一个物体上容易产生多个带尺度的预测框;利用soft‑NMS算法去除多余的带尺度的预测框,保留一个预测结果;设S1和S2分别为两个预测框的面积,ΔS为两个预测框重合的面积,定义IoU为:
将预测结果中所有的预测框按置信值从大到小排序,依次选取目标框,并选取出排在当前预测框之后并且与当前预测框IoU大于设定阈值的预测框,认为他们都是对于同一物体的预测;对所有同一物体的预测框做加权平均,公式如下:
其中boxj表示第j个预测框的参数,包括中心坐标和长宽;利用当前计算的box值作为最终预测框的信息,并去掉其他在当前这一物体上的预测框,就得到最终的预测结果;步骤(6)得到最终目标物体的空间位置再在深度图中找到目标框的位置,计算目标框中所有像素点的平均深度值,得到目标物体的深度;利用物体中心坐标和平均深度值,结合相机的内部参数,得到最终物体的空间位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910016289.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种处理数据的方法和装置
- 下一篇:一种基于深度学习的目标姿态估计方法