[发明专利]一种基于深度学习的目标识别与抓取定位方法有效
申请号: | 201810248258.1 | 申请日: | 2018-03-24 |
公开(公告)号: | CN108648233B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 贾松敏;鞠增跃;张国梁;李秀智;张祥银 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T7/11;G06T7/194;G06V10/762;G06V10/764;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习的目标识别与抓取定位方法,属于机器视觉领域。首先,利用Kinect相机采集场景的深度和彩色图像,然后使用Faster R‑CNN深度学习算法识别场景目标,根据识别的类别选择抓取的目标区域,并作为GrabCut图像分割算法的输入,通过图像分割获取目标的轮廓,进而获取目标的具体位置,并作为级联神经网络的输入进行最优抓取位置检测,最终获取机械臂的抓取位置和抓取姿态。通过该方法提高目标识别与定位的实时性、准确性以及智能性。 | ||
搜索关键词: | 一种 基于 深度 学习 目标 识别 抓取 定位 方法 | ||
【主权项】:
1.一种基于深度学习的目标识别与抓取定位方法,其特征在于:首先,利用Kinect相机采集场景的深度和彩色图像,然后使用Faster R‑CNN深度学习算法识别场景目标,根据识别的类别选择抓取的目标区域,并作为GrabCut图像分割算法的输入,通过图像分割获取目标的轮廓,进而获取目标的具体位置,并作为级联神经网络的输入进行最优抓取位置检测,最终获取机械臂的抓取位置和抓取姿态;(1)基于深度学习的目标识别;步骤一,Kinect采集场景的深度图像和彩色图像;步骤二,将整幅图像输入到CNN神经网络,提取图像的特征;步骤三,用PRN生成建议窗口;采用多任务损失函数来最小化目标函数,目标函数定义为:
其中i表示一个小批量样本的索引;pi表示小批量样本的索引i的目标的概率;真实标签
为1时表示为正标签,
为0时表示负标签;ti表示预测边界的四个参数化变量;
表示正标签小批量样本的索引i对应的真实框的坐标向量;Lcls和Lreg分别表示分类损失和回归损失,Ncls和Nreg表示归一化参数;λ表示平衡权重;步骤四,将建议窗口映射到CNN的最后一层卷积特征图上;步骤五,通过ROI池化层使个ROI生成固定尺寸的特征图;步骤六,利用Softmax Loss即探测分类概率和Smooth L1Loss即探测边框回归对目标进行分类与定位;(2)图像超像素分割;简单线性迭代聚类是在K‑means聚类算法的基础上,拓展而来的一种简单而高效的构建超像素的方法;采用超像素算法将图像预分割成块状图,能够减少构建网格图的定点数,进而缩短计算时间;具体超像素分割步骤如下;步骤一,以步长为S的网络中心初始化聚类中心点cj={lj,aj,bj,xj,yj}T,其到超像素中心的距离测量ds如式(2)所示;其中lj、aj和bj表示CLELAB颜色空间的l、a和b颜色通道信息,xj,yj表示聚类中心点的坐标,j表示像素点的序号数;
其中,p表示空间和像素颜色的相对重要性的度量,dlab代表颜色距离,dxy代表空间距离;步骤二,将聚类中心点移至该邻域内梯度最小的位置;步骤三,在每个种子点周围的邻域内为像素点分配类标签即属于哪个聚类中心;步骤四,通过计算搜索到的像素点和该种子点的距离,更新聚类中心;步骤五,计算剩余误差,重复步骤三到步骤五直至误差收敛;(3)基于GrabCut算法提取目标轮廓;GrabCut是基于GraphCuts迭代式图像分割算法,采用高斯混合模型代替灰度直方图,实现彩色图像分割;定义Gibbs能量函数为E(a,k,θ,z)=U(a,k,θ,z)+V(a,z) (3)其中a为不透明度,a∈[0,1],0为背景,1为前景目标;k是像素的高斯分量;θ为像素属于前景/背景的概率,z是图像像素;U称之为数据项,其定义为
D(an,kn,θ,zn)=‑logp(zn|an,kn,θ)‑logπ(an,kn)(4)其中:p(.)为高斯概率分布,π(.)为混合权重系数;V称之为平滑项,其定义为
其中:e=0;(m,n)表示两个相邻像素点m和n;C是相邻像素点对应的集合;[.]是取值为0或1的函数,当且仅当an≠am时,[an≠am]=1,当且仅当an=am时,[an≠am]=0;β=(2<||zm‑zn||2>)‑1,<.>表示样本的数学期望;在设置适当阈值的前提下,使用超像素分割算法对图像进行预处理,得到区域内相似度比较高且拓扑结构比较规整的块状区域;进而使用各个区域中的RGB均值代替区域内像素值进行GMM参数估计并构建精简的网格图,最后,为了保证图像分割精度,使用得到的GMM参数对原始图像进行分割,从而达到提高分割速度而精度不减的目的;具体的改进的GrabCut分割步骤如下;步骤一,根据块索引,初始化GMM参数;步骤二,将预处理阶段获得的原图像进行三元图初始化,矩形以外的区域为背景区域TB,目标区域TF,未知区域TU,其中
步骤三,将背景区域像素点的透明度设值设为0,未知区域像素的透明度值设为1;如果像素属于TB,则像素的透明值为0;如果像素属于TU,则像素点的透明值为1;前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化;步骤四,迭代估计GMM参数:1)GMM标号;2)学习GMM参数;3)根据分块之间的邻接关系构建网络图,并用最大流/最小割算法进行分割;4)迭代步骤1~3,直到算法收敛;步骤五,根据得到的GMM参数对原始图像构造S‑T网格图,使用最大流/最小割算法进行分割;步骤六,输出分割结果,提取目标物体轮廓;(3)最优抓取位置检测;通过(1)、(2)和(3)三个过程可以获得目标的位置和轮廓,但是机械臂的抓取不仅需要目标的坐标信息,还需要目标的抓取姿态信息;为了求解目标的抓取姿态,采用最优抓取位置检测算法,该算法是由一个深度网络组成的两步级联神经网络系统,首先选择一组包含目标的候选抓取区域,然后在前一步的基础上在候选区域上进行检测并获取最优的抓取位置;具体的过程分为以下几个步骤;步骤一,根据分割结果获取目标最小的矩形区域;分割结果得到了目标的轮廓,根据目标的轮廓构建目标的最小矩形图像;并根据目标的最小矩形区域分别从彩色图、深度图和基于深度图的表面法向量上截取出来;步骤二,生成若干组搜索框;对截取的区域做旋转、白化数据以及保持纵横比操作,生成若干组的搜索框,当生成搜索框时,这组搜索框就被转换成为一个24×24×7大小的输入特征,24×24为搜索框的归一化尺寸,7为通道数;步骤三,深度神经网络对抓取目标分类和预测;当预处理阶段完成之后,特征数据将会被送到包含两个隐含层的神经网络中,对于神经网络权值训练的目的是找到一个最优单一的抓取框,使得机械臂抓到目标的概率最大,概率函数的表达式为(6)所示:
D表示特定抓取框的位置、大小和方向,D*表示最优抓取矩形框,其中φ(D)函数表示D的提取矩形框标准的输入表示;Θ表示神经网络的权值;
表示函数的输出,取值为{0,1}。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810248258.1/,转载请声明来源钻瓜专利网。