[发明专利]一种基于超像素集的室内场景语义标注方法有效
申请号: | 201711345653.3 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107944428B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王立春;段学浩;孔德慧;王玉萍;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于超像素集的室内场景语义标注方法属于多媒体技术与计算机图形学技术领域,针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限。本发明先计算超像素特征,然后利用高斯混合模型基于超像素特征建模超像素集特征,并将其映射到希尔伯特空间,最后降维到欧式空间得到超像素集的特征表示。与以往方法不同,本发明针对与物体对象基本等量的空间(超像素集)提取特征,能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。 | ||
搜索关键词: | 一种 基于 像素 室内 场景 语义 标注 方法 | ||
【主权项】:
一种基于超像素集的室内场景语义标注方法,其特征在于,包括以下几个步骤:1)超像素分割使用gPb/UCM算法进行图像的超像素分割,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值;Maprgb_dprob=0.75*Maprgbprob+0.25*Mapdprob---(1)]]>依据公式(1)得到的概率值和设定的概率阈值0.08,按照八连通原则,将概率值小于0.08的像素连成一个区域,每个区域即为一个超像素;2)Patch特征计算Patch定义为16×16大小的网格,;以k个像素为步长,固定步长k值为2,从彩色图像RGB和深度图像Depth左上角向右向下进行滑动,最终在彩色图像RGB和深度图像Depth上形成密集的网格;以分辨率为N*M的场景图像为例,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征Fg_d、彩色梯度特征Fg_c、彩色特征Fcol、纹理特征Ftex。2.1深度梯度特征深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:公式(2)中,zd∈Zd表示像素zd在深度Patch中的相对二维坐标位置;和分别表示像素zd的深度梯度方向和梯度大小;和分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;和分别为深度梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d;2.2彩色梯度特征彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:公式(3)中,zc∈Zc表示一个像素zc在彩色图像Patch中的相对二维坐标位置;和分别表示像素zc的梯度方向和梯度大小;和分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;和分别为彩色梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c;2.3彩色特征彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:公式(4)中,zc∈Zc表示像素zc在彩色图像Patch中的相对二维坐标位置;r(zc)为三维向量,是像素zc的RGB值;和分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;和分别为彩色高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol;2.4纹理特征首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:公式(5)中,zg∈Zg表示像素zg在灰度图像Patch中的相对二维坐标位置;S(zg)表示以像素zg为中心的3×3区域内像素灰度值的标准方差;lbp(zg)为像素zg的局部二值模式特征(Local Binary Pattern,LBP);和分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;和分别为局部二值模式高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK(Efficient Match Kernel)算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex;3)超像素特征计算超像素特征Fseg定义如(6)式:Fseg=[Fg_dseg,Fg_cseg,Fcolseg,Ftexseg,Fgeoseg]---(6)]]>分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:Fg_dseg=1nΣp=1nFg_d(p)Fg_cseg=1nΣp=1nFg_c(p)Fcolseg=1nΣp=1nFcol(p)Ftexseg=1nΣp=1nFtex(p)---(7)]]>(7)式中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量;超像素几何特征按(8)式定义:Fgeoseg=[Aseg,Pseg,Rseg,η20x,η02y,η20xy,X‾,Y‾,X‾2,Y‾2,D‾,Ds‾,Dvar,Dmiss,Nseg]---(8)]]>(8)式中各分量定义如下:超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如(9)式:Pseg=Σs∈Bseg1Bseg={s|s∈seg,s′∈N4(s),s′∈seg′,seg≠seg′}N4(s)={s(x-1,y),s(x+1,y),s(x,y-1),s(x,y+1)|2≤x≤M-1,2≤y≤N-1}---(9)]]>公式(9)中,N、M分别表示RGB场景图象的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合;超像素的面积周长比Rseg定义如(10)式:Rseg=AsegPseg---(10)]]>是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶Hu矩,定义如式(11)、(12)、(13)η20x=Σs∈segsx2Aseg-(Σs∈segsx)2(Aseg)2---(11)]]>η02y=Σs∈segsy2Aseg-(Σs∈segsy)2(Aseg)2---(12)]]>η20xy=Σs∈seg(sxsy)2Aseg-Σs∈segsxΣs∈segsy(Aseg)2---(13)]]>公式(14)中分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):X‾=Σs∈segsxAseg*1WidthY‾=Σs∈segsyAseg*1HeightX‾2=(X‾)2Y‾2=(Y‾)2---(14)]]>Width,Height分别表示图像宽度和高度,即基于归一化的像素坐标值进行计算;Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):D‾=Σs∈segsdAsegDs‾=Σs∈seg(sd)2AsegDvar=max[(Ds‾-(D‾)2),0]---(15)]]>Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):Dmiss=Σs∈SD1AsegSD={s|s∈seg,sd=0)---(16)]]>Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计;4)超像素集特征计算4.1基于超像素集建立高斯混合模型超像素集合对每个超像素依据步骤3计算特征Fseg,利用最大期望算法基于特征向量集合{Fseg|seg∈SP}建立高斯混合模型G(x),模型形式如(17)式:G(x)=Σii=1mgwiigii(x)gii(x)=N(x|μii,Σii)---(17)]]>其中,mg表示高斯分量个数,N(x|μii,∑ii)表示第ii个高斯分量,μii和∑ii分别表示第ii个高斯分量的均值向量和协方差矩阵,wii为第ii个高斯分量在高斯混合模型中的权值;4.2高斯分量映射到希尔伯特空间基于训练样本中第r个语义类别对应的超像素集合依据步骤4.1建立对应于第r个语义类别的高斯混合模型,得到高斯分量集合记所有C个语义类别对应的高斯混合模型所包含高斯分量的集合为任一高斯分量gl到希尔伯特空间的映射记为kl,kl的计算如公式(18):kl=[k(gl,g1),k(gl,g2),...,k(gl,gN)]Tk(gl,gjj)=12(tr(Σjj-1Σl)+(μjj-μl)TΣjj-1(μjj-μl)-ln(det(Σl)det(Σjj))-D)---(18)]]>其中,tr表示矩阵的迹,即矩阵对角线元素的乘积;det表示行列式;D=|Fseg|是超像素特征的维度;μ和∑分别是高斯分量的均值向量和协方差矩阵,∑‑1是协方差矩阵Σ的逆;4.3希尔伯特空间变换到欧式空间记希尔伯特空间中向量kl映射到低维欧式空间中的向量为Zl,则有Zl=ATkl (19)式(19)中A为正交矩阵;A=[α1,α2,…,αC‑1]∈RN×(C‑1),其中Nr是第r个语义类别的高斯混合模型中高斯分量的个数,C是语义类别的数量,即N是C个语义类别的高斯混合模型包含的高斯分量总的数量;A是求解(20)式得到的前C‑1个特征向量α1,α2,…αC‑1;Bα=λWα (20)式(20)中,α为特征向量,λ为特征值,B和W的计算如公式(21)B=Σr=1CNr(mr-m)(mr-m)TW=Σr=1C1wrΣjr=1Nr(kjrr-mr)(kjrr-mr)T---(21)]]>其中,mr,wr计算如公式(22)mr=1NrwrΣjr=1Nrwjrrkjrrm=1NΣr=1C1wrΣjr=1Nrwjrrkjrrwr=Σjr=1Nrwjrr---(22)]]>其中,C是语义类别的数量,Nr是第r个语义类别高斯混合模型中高斯分量的个数,是第r个语义类别的高斯混合模型中第jr个高斯分量的权值,是第r个语义类别的高斯混合模型中第jr个高斯分量映射到希尔伯特空间的高维向量;4.4语义类别的特征表示对第r个语义类别的高斯混合模型的每一个高斯分量依据式(18)将其映射到希尔伯特空间得到向量再依据式(19)降维到欧式空间得到向量则第r个语义类别的一组高斯分量变换为记即为第r个语义类别的特征表示;5)测试样本识别分类测试样本Ste为一组超像素,依据步骤4.1构建高斯混合模型得到一组高斯分量再依据式(18)将映射到希尔伯特空间,最后依据式(19)降维到欧式空间得到向量集合即为测试样本的特征表示;设l(r)表示第r个语义类别的语义标签,L′(zte)、L(zte)分别表示测试样本的候选语义标签及最终语义标签;对测试样本的每个特征向量计算其与所有类别特征向量的夹角,与特征向量夹角最小的类别特征向量的语义标签l(r)是测试样本的候选语义标签,如式(23)所示;其中依据式(23)计算得到T个候选语义标签L′(zte),其中T是测试样本的高斯混合模型包含的高斯分量的数量。依据式(24)定义的投票规则计算测试样本与语义类别的距离,包含最多与测试样本特征向量夹角最小的类别特征向量的语义类别的语义标签即是测试样本的最终语义标签;式(24)中,C为语义类别的数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711345653.3/,转载请声明来源钻瓜专利网。
- 上一篇:动态人脸识别方法及计算机可读存储介质
- 下一篇:旅行包(59)