[发明专利]一种基于多层次融合的RGBD图像显著性检测方法及系统有效
申请号: | 202010570806.X | 申请日: | 2020-06-20 |
公开(公告)号: | CN111723822B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 牛玉贞;张宇杰;龙观潮;刘文犀 | 申请(专利权)人: | 福州大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 融合 rgbd 图像 显著 检测 方法 系统 | ||
1.一种基于多层次融合的RGBD图像显著性检测方法,其特征在于:包括以下步骤:
步骤S1:进行RGBD图像数据增强,同时对彩色图像以及对应的深度图和人工标注图进行处理,增加训练数据的多样性;
步骤S2:设计多层次卷积神经网络结构,提取并融合深度图与彩色图像特征,融合多层次的特征,得到各个层次预测的显著性图Sk;
步骤S3:设计一个融合优化模块,然后融合各个层次的显著性图Sk,得到最终的显著性图Sfinal;
步骤S4:通过求解最小化损失函数,学习到RGBD图像显著性检测模型的最优参数,得到训练好的RGBD图像显著性检测模型;
步骤S5:最后,将RGBD图像输入训练好的RGBD图像显著性检测模型,通过模型计算得到输入图像的显著性检测结果,即显著性图;
所述步骤S2具体包括以下步骤:
步骤S21:设计一种多层次卷积神经网络结构,网络由两个VGG16网络构成:分别输入彩色图像和深度图;
步骤S22:多层次网络结构使用VGG16中的5个卷积层和一个池化层Conv1,Conv2,Conv3,Conv4,Conv5,Pool5提取各个层次的特征,分别为第1,2,...,6层特征;其中一个VGG16网络的输入是彩色图像,得到的是彩色图像特征,另一个VGG16网络的输入是深度图,得到的是深度图特征;然后,在每个层次将颜色特征和深度特征拼接起来,公式如下:
其中Xkfusion表示第k层将彩色图特征和深度图特征拼接的特征,Xkrgb表示第k层的彩色图特征,Xkdepth表示第k层的深度图特征,表示拼接操作;然后经过跨模态特征采样模块将两种特征融合起来;
CFS模块通过输入的特征经过全局平均池化和全局方差池化以及两个全连接层来估计两种特征各个通道的权重,公式如下:
其中,wk表示第k层融合特征各个通道上的权重,wavg,wvar分别表示全局平均池化分支和全局平均方差池化分支上的可训练参数,wkavg表示拼接特征经过全局平均池化层和全连接层学习到的各个通道上的权重,wkvar表示拼接特征经过全局方差池化层和全连接层学习到的各个通道上的权重;
最后经过卷积核为1的卷积核将融合的特征进行降维减少参数量;公式如下:
表示逐像素点乘,Conv1×1代表卷积核大小为1的卷积,Xk′表示降维后的特征;
步骤S23:降维后的Xi′特征会经过3层卷积层进行空间上的转化将这一系列的卷积操作定义为Fst,则有:
Hk=Fst(Xk′)
Hk表示第k层经过空间转化后的特征;
将深层的特征通过密集连接的方式整合到浅层,与浅层特征结合来获得更加精确的语义;整合后的特征经过降维再被用来预测各个层次的显著性图Sk(k=1...6);具体公式如下:
其中,表示从第t层到第6层连续拼接,Ht代表第t层经过空间转化后的特征,Fup表示上采样,Hk′表示第k层特征经过深层特征密集聚合后的特征,Hkout表示第k层特征Hk′经过降维并缩放 到与输入图像块相同尺寸后的特征,该特征是输出显著性图前的特征,σ表示Sigmoid激活函数,Sk代表第k层输出的显著性图;
所述步骤S3的具体内容为:
将这个融合优化模块定义为Ffrm,此模块是一个编码器和解码器结构,由前面各层的显著性图融合计算得到最终的显著性图,具体的公式如下:
Sfinal=Ffrm(Sk;k=1…6)
k表示第k层,Sfinal表示最终的显著性图,Sk表示第k层输出的显著性图,Ffrm表示一个编码器和解码器结构的融合模块;
所述步骤S4具体包括以下步骤:
步骤S41:使用各种损失函数作为约束,优化RGBD图像显著性检测模型,具体的公式如下:
其中,表示最终训练的损失函数,其中∑表示求和,k∈{1,…,6},是作用在第k层上的边缘损失,是作用在最终的显著性图上的约束形状相似性的损失函数,是分别作用在第k层和最终的显著性图的交叉熵损失函数;上面的具体计算公式如下:
其中,ΔY,ΔSk分别表示输入的显著性图真值图求导后的图和计算的第k层的显著性图Sk求导后的图,Sfinal表示最终融合得到的显著性图,log表示log函数,Y表示输入的显著性图的人工标注图,[i,j]表示图像的第i行和第j列像素,Y[i,j],Sk[i,j],ΔY[i,j],ΔSk[i,j],Sfinal[i,j]分别表示图像Y,Sk,ΔY,ΔSk和Sfinal的第i行和第j列像素处的值;
步骤S42:以批次为单位重复进行上述的步骤S2到S4步骤,直至收敛到阈值或者达到迭代次数到阈值,保存网络参数,完成网络训练,得到训练好的RGBD图像显著性检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010570806.X/1.html,转载请声明来源钻瓜专利网。