[发明专利]一种RGB-D信息互补的语义分割方法在审

专利信息
申请号: 202111009283.2 申请日: 2021-08-31
公开(公告)号: CN113850856A 公开(公告)日: 2021-12-28
发明(设计)人: 王立春;顾娜娜;王少帆;杨臣;信建佳;尹宝才 申请(专利权)人: 北京工业大学
主分类号: G06T7/40 分类号: G06T7/40;G06T7/50;G06T7/90;G06T3/40;G06K9/62;G06K9/34
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 rgb 信息 互补 语义 分割 方法
【权利要求书】:

1.一种RGB-D信息互补的语义分割方法,其特征在于提出一种RGB和深度信息互补的网络(IC-Net);IC-Net包括两个部分:1)逐层嵌入RGB和深度信息互补模块(ComplementPart)的编码器网络,2)逐层跳跃连接的解码器网络

首先,输入RGB图像,维度为H×W×3,其中H、W分别表示RGB图像的高度和宽度,3表示通道为3;输入原始深度图,维度为H×W×1;其中H、W分别表示原始深度图的高度和宽度,默认RGB图像和原始深度图具有相同的高度和宽度,1表示通道为1;利用编码部分的RGB编码器和Depth编码器分别对RGB信息和深度信息进行编码,每个编码器包含4个block,对每层block编码得到的k的取值范围为1~4,in表示输入,

in表示输入,RGB表示RGB特征;

(其中k的取值范围为1~4,in表示输入,Depth表示深度特征)利用Complement Part进行互补融合,第k层Complement Part输出的其(其中k的取值范围为1~4,out表示输出,fusion表示融合特征)和(其中k的取值范围为1~4,out表示输出,Depth表示深度特征)分别作为下一层RGB编码器block和Depth编码器block的输入;第4层Complement Part输出的特征输入金字塔池化模块提取多尺度融合特征;

在解码阶段,解码器网络对PPM输出的多尺度融合特征进行多次二倍上采样和卷积操作,并与编码器输出的同分辨率特征相加,解码器输出的尺寸为输入分辨率的特征图即为分割结果。

2.根据权利要求1所述的方法,其特征在于,网络的编码和解码部分具体如下:

1)逐层信息互补的编码器

RGB编码器和Depth编码器使用ResNet50作为主干网络用于提取RGB和深度特征;ResNet50的每层block输出的特征输入Complement Part生成互补的RGB特征和深度特征;Depth-guided Attention Module将深度信息作为互补信息补充到RGB信息;RGB-guidedAttention Module将RGB信息作为互补信息补充到深度信息;

第k层Complement Part计算Depth-guided Attention时,其输入包括原始深度图Depth mapin∈RH×W×1,其中H×W×1表示原始深度图的高度、宽度和通道数分别为H、W和1;和RGB编码器第k层block输出的特征图其中k=1,2,3,4;hk×wk×ck表示特征图的高度、宽度和通道数分别为hk、wk和ck,当k=1时,表示RGB编码器第1层block输出的特征图为它的维度为h1×w1×c1,以此类推首先将深度图Depth mapin下采样到hk×wk表示此时的高度、宽度分别为hk和wk,然后利用公式(1)计算深度关系图(Depth Relation Map)

RD[i][j]=Softmax(||D[i]-D[j]||) (1)

i、j表示原始深度图的像素的位置索引值,其中i∈{1,...,hkwk}和j∈{1,...,hkwk},D[i](D[j])表示第i(j)个像素的深度值;Softmax函数对任意两像素间的深度差值进行归一化,RD[i][j]用来表示任意两个像素之间的深度距离;

同时计算特征图(记为x)的任意两个像素之间的特征相似性,以生成特征关系图;hk×wk表示此时的高度、宽度分别为hk和wk

对使用卷积运算Wθ和计算特征关系图RA,如公式(2):

RD和RA逐元素相乘,经Softmax标准化后即为Depth-guided Attention;对在式(3)中仍记为x,使用卷积运算Wg计算特征图后与Depth-guidedAttention相乘生成特征图如公式(3)所示:

公式(2)和公式(3)中⊙和分别表示逐元素乘法和矩阵乘法;表示第k层Depth-guidedAttention Module后,经过深度特征补充的RGB特征;

RGB-guided Attention Module基于RGB图像的纹理特征分别计算水平和垂直方向的注意力,并基于计算得到的注意力值增强深度特征,水平和垂直方向的注意力捕捉一个空间方向的长距离相关性,并保留沿另一个空间方向的精确位置信息;

第k个Complement Part计算RGB-guided Attention时,其输入包括RGB编码器中第一层block输出的h1、w1和c1表示第一层block的输出特征的高度、宽度、通道数,和Depth编码器每层block输出的特征图hk×wk×ck表示第k层block的输出特征的高度、宽度、通道数分别为hk、wk和ck;使用维度为1×w1的平均池化核沿着垂直方向对(记为X)编码每个通道,Xc(i,j)表示以i、j编码像素位置的第c个通道特征图,得到第c个通道特征向量为:

使用维度h1×1的平均池化核沿着水平方向对(记为X)编码每个通道,得到第c个通道特征向量为:

基于公式(4)和(5)生成的特征图和利用公式(6)计算中间特征图r用于控制特征图通道数缩减率;使用r=32,即将c1缩减为

f=δ(F1([Zh,Zw])) (6)

其中[·,·]表示拼接操作,F1表示1×1卷积,δ是激活函数;使用h-swish激活函数;然后将f在(h1+w1)维度进行切片处理:分成两个独立的特征图和再利用两个卷积变换Fh和Fw分别对fh和fw进行变换得到和如公式(7)和公式(8):

gh=σ(Fh(fh)) (7)

gw=σ(Fw(fw)) (8)

其中σ是sigmoid函数;分别将gh和gw进行横向或纵向复制,使维度扩展到hk×wk×ck得到Gh和Gw;Gh和Gw分别与深度特征图相乘,再将结果相加生成深度特征图

公式(9)中⊙分别表示逐元素乘法,作为Depth编码器第(k+1)层block的输入;作为第(k+1)层RGB编码器block的输入,计算方式如公式(10):

在编码器和解码器之间设置金字塔池化模块,包括平均池化操作、卷积操作和双线性插值操作;平均池化表示采用1×1、2×2、3×3和6×6四种不同尺寸的pooling操作得到多个尺寸的特征图,并对这些尺寸的特征图进行1×1卷积将通道数减少到通道数的1/4;然后采用双线性插值进行上采样,即通过上采样获得与金字塔池化模块输入特征图相同尺寸的特征图,最后将不同尺度的特征图与进行拼接作为金字塔池化模块的输出特征图;

2)逐层跳跃连接的解码器

解码器由三个解码器模块组成,每个解码器模块由3×3卷积、双线性插值以及跳跃连接组成;解码器通过3×3卷积和双线性插值对特征图逐层进行尺寸的复原;将相同分辨率的编码器输出特征图与解码器输出特征图进行跳跃连接,具体地,编码器block输出的特征图经1×1卷积变换到与解码器特征图相同数量的通道后与解码器特征图相加;最后利用3×3卷积将第三个解码器模块输出通道数变换到相应数据集的类别数,再经双线性插值将其恢复到输入图像的分辨率即为分割结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111009283.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top