[发明专利]一种RGB-D信息互补的语义分割方法在审

申请号：	202111009283.2	申请日：	2021-08-31
公开（公告）号：	CN113850856A	公开（公告）日：	2021-12-28
发明（设计）人：	王立春;顾娜娜;王少帆;杨臣;信建佳;尹宝才	申请（专利权）人：	北京工业大学
主分类号：	G06T7/40	分类号：	G06T7/40;G06T7/50;G06T7/90;G06T3/40;G06K9/62;G06K9/34
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 rgb 信息互补语义分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种RGB‑D信息互补的语义分割方法属于图像分割技术领域。本发明针对已有利用RGB和深度信息的方法只考虑单向补充的问题，提出一种RGB和深度信息交叉互补的RGB‑D语义分割网络结构，旨在对RGB和深度信息进行双向的逐层信息补充，达到提高语义分割效果的目的。

技术领域

本发明属于图像分割技术领域，具体是提出一种RGB和深度信息互补的语义分割方法，用于满足机器人服务和虚拟/增强现实等应用对环境理解的需求。

背景技术

语义分割(semantic segmentation)是对场景中每个像素进行语义标注。目前，利用RGB数据的语义分割已经做了大量的工作，但是由于光源差异、光照变化等导致的图像明暗对比度差异、局部明暗不均匀等会影响图像特征精度并进而影响语义分割的效果，因此基于RGB信息的语义分割仍然面临挑战。基于传感器获得的深度(Depth)图像不受光照影响，因而可有效提取对光度敏感的特征。随着深度传感器逐渐获得普遍应用，如何有效地利用RGB和深度信息提高场景图像语义分割精度得到更广泛的关注。

已有利用RGB与深度信息进行语义分割的方法通常对两个通道的数据或特征进行融合，按照融合位置的不同，可以分为图1所示的三种融合方式：分别为首端融合、末端融合以及逐层融合。图1(a)为首端融合，通过对RGB和深度数据简单拼接(C,Concatenation)，形成新的R、G、B、D四通道数据送入CNN网络进行分割，这种融合方式的缺点在于没有对两种模态的特有特征进行充分挖掘；图1(b)为末端融合，利用独立的两支CNN网络提取各自的特征，对所提特征进行逐元素相加后预测分割结果，这种融合方式仅对特征进行单层融合，融合程度不够，导致模态间的信息不能充分融合；图1(c)为逐层融合，在编码部分对特征进行逐层融合，融合后的特征输入解码器得到预测的分割结果，这种融合方式对模态间的信息进行了更充分的融合，将深度模态考虑为RGB模态的补充信息，但没有考虑RGB模态对深度模态的补充。

发明内容

本发明针对已有利用RGB和深度信息的方法只考虑单向补充的问题，提出一种RGB和深度信息交叉互补的RGB-D语义分割网络结构，旨在对RGB和深度信息进行双向的逐层信息补充，达到提高语义分割效果的目的。

本发明基于编码器-解码器类型的网络架构，提出一种RGB-D信息互补的语义分割方法一种RGB和深度信息互补的网络(IC-Net,Information Complementarity Network)。IC-Net包括两个部分:1)逐层嵌入RGB和深度信息互补模块(Complement Part)的编码器网络，如图2所示；2)逐层跳跃连接的解码器网络，如图3所示。

首先，输入RGB图像(维度为H×W×3,其中H、W分别表示RGB图像的高度和宽度，3表示通道为3)和原始深度图(维度为H×W×1,其中H、W分别表示原始深度图的高度和宽度，默认RGB图像和原始深度图具有相同的高度和宽度，1表示通道为1)，利用编码部分的RGB编码器和Depth编码器分别对RGB信息和深度信息进行编码,每个编码器包含4个block，对每层block编码得到的

(其中k的取值范围为1～4，默认后续的k具有相同含义,in表示输入，默认后续的in具有相同含义，RGB表示RGB特征，默认后续的RGB具有相同含义，)和(其中k的取值范围为1～4,in表示输入，Depth表示深度特征)利用Complement Part进行互补融合，第k层Complement Part输出的其(其中k的取值范围为1～4，out表示输出，fusion表示融合特征)和(其中k的取值范围为1～4，out表示输出，fusion表示融合特征)分别作为下一层RGB编码器block和Depth编码器block的输入。第4层Complement Part输出的特征输入金字塔池化模块(PPM，Pyramid Pooling Module)提取多尺度融合特征。

在解码阶段，解码器网络对PPM输出的多尺度融合特征进行多次二倍上采样和卷积操作，并与编码器输出的同分辨率特征相加，解码器输出的尺寸为输入分辨率的特征图即为分割结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111009283.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种RGB-D信息互补的语义分割方法在审

专利文献下载