[发明专利]一种基于超像素深度网络的室内场景语义分割方法有效
申请号: | 201910642478.7 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110517270B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王立春;陆建霖;王少帆;孔德慧;李敬华 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T7/90;G06V10/762;G06K9/62;G06N3/04 |
代理公司: | 北京市中闻律师事务所 11388 | 代理人: | 冯梦洪 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 像素 深度 网络 室内 场景 语义 分割 方法 | ||
1.一种基于超像素深度网络的室内场景语义分割方法,该方法包括以下步骤:
(1)对RGB颜色图像使用简单线性迭代聚类分割算法SLIC得到超像素集合;
(2)计算每一个超像素的最小包围矩形;
(3)基于超像素深度网络RCN提取图像的颜色特征与深度特征;
(4)使用每一个超像素的最小包围矩形,在颜色与深度的多层次特征图上进行裁剪和重塑操作,得到每一个超像素颜色多层次特征表示与深度多层次特征表示;
(5)融合超像素颜色多层次特征与深度多层次特征得到超像素特征,对超像素进行分类,实现室内场景语义分割;
所述步骤(1)中简单线性迭代聚类分割算法SLIC包括以下分步骤:
(1.1)确定分割得到的超像素的数量K;
(1.2)对于一张有N个像素的图像,以步长为初始化K个聚类中心cj,1≤j≤K;
(1.3)将聚类中心点cj移至它的3x3邻域内的最小梯度位置,其坐标记为(xj,yj);
(1.4)给每一个像素点i,其坐标记为(xi,yi),设置一个标签l(i)=-1,以及距离d(i)=∞;
(1.5)将图像由RGB颜色空间转换到LAB颜色空间;
(1.6)对于每个中心点cj,在它的2S×2S的邻接区域中,根据公式(1)计算区域内每个像素点i与cj的距离ds;
其中,dlab表示第j个聚类中心cj与像素点i的颜色差异,dxy表示第j个聚类中心cj与像素点i的空间距离,而ds是颜色距离和归一化的空间距离的加权和;变量m用来权衡颜色距离和空间距离对像素相似度的影响,m越大,空间距离影响越大,超像素更紧凑;m越小,颜色距离影响越大,超像素更贴合图像边缘;
(1.7)若ds<d(i),则置l(i)=l(cj),d(i)=ds;
(1.8)重复步骤(1.6)-(1.7),直到所有聚类中心点cj的邻接区域都被搜索;
(1.9)计算每个超像素的重心,将其做为超像素新的聚类中心;
(1.10)计算新聚类中心与旧聚类中心的距离E;
(1.11)如果E小于给定的阈值,算法收敛;否则重复步骤(1.6)-(1.10);
所述步骤(2)中,对于每一个超像素找出属于该超像素的最左、最右、最上和最下的四个像素相应的坐标,取最左像素的坐标x0与最上像素的坐标y0组成最小包围矩形左上角的坐标值(x0,y0);取最右像素的坐标x1与最下像素的坐标y1组成最小包围矩形右下角的坐标值(x1,y1);使用两个坐标值(x0,y0)与(x1,y1)表示超像素的最小包围矩形;
所述步骤(3)中,包括计算图像多层次颜色特征和图像多层次深度特征的卷积层(Conv1,Pool1;Conv2,Pool2;Conv3,Pool3;Atrous Conv4,Pool4;Atrous Conv5,Pool5);
其特征在于:所述步骤(4)中假设输入图像的大小为(H0,W0),特征图大小为(H,W),超像素SP的最小包围矩形对应于输入图像的左上角和右下角坐标为(x0,y0)与(x1,y1);
裁剪特征图的具体方法如下:
(a.1)计算特征图相对输入图像的缩放比例(sh,sw),其中
(a.2)将超像素SP的最小包围矩形左上角和右下角坐标按照特征图相对输入图像的比例进行缩放且记为(x0',y0')与(x1',y1'),其中
(a.3)特征图上左上角坐标为(x0',y0')与右下角坐标为(x1',y1')的矩形框所包围的特征图即为超像素SP的特征图;
重塑操作使用双线性插值方法:假设重塑操作输入的特征图大小为H'×W',输出的特征图大小为1×1;具体步骤如下:
(b.1)计算输出特征图上像素点在超像素SP特征图上的位置坐标(xr,yr),其计算为公式(2):
(b.2)在输入特征图上选取距离坐标(xr,yr)最近的四个坐标(xr1,yr1)、(xr1,yr2)、(xr2,yr1)以及(xr2,yr2),其中xr1≤xr,yr1≤yr,xr2≥xr,yr2≥yr;
(b.3)根据公式(3)计算输出特征图的特征值F;
F11、F12、F21、F22分别是特征图上(xr1,yr1)、(xr1,yr2)、(xr2,yr1)以及(xr2,yr2)位置对应的特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910642478.7/1.html,转载请声明来源钻瓜专利网。