[发明专利]一种基于区域对比学习的图像显著性可视化方法有效

专利信息
申请号: 202110624243.2 申请日: 2021-06-04
公开(公告)号: CN113450313B 公开(公告)日: 2022-03-15
发明(设计)人: 唐佩军;潘力立 申请(专利权)人: 电子科技大学
主分类号: G06T7/00 分类号: G06T7/00;G06T7/11;G06T7/194;G06K9/62;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08
代理公司: 电子科技大学专利中心 51203 代理人: 陈一鑫
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 区域 对比 学习 图像 显著 可视化 方法
【权利要求书】:

1.一种基于区域对比学习的图像显著性可视化方法,该方法包括:

步骤1:对第一阶段的显著性目标检测数据集进行预处理;

获取MSRA10K数据集,先将数据集划分为真实RGB图像和显著性图像,并随机打乱图像对顺序;其次对输入图像进行尺寸归一化;最后对图像像素进行归一化至范围[0,1];

步骤2:构建第一阶段的基于GAN的显著性检测网络;

1)所述基于GAN的显著性检测网络包含:一个生成器G1,一个判别器D1和一个映射网络F,其中生成器又分为编码器部分和解码器部分,其输入为真实的RGB图像或真实的显著性图像,输出为预测的显著性图像;而判别器输入为图像,输出为表示真假的标量值,映射网络输入和输出均为特征;

所述生成器G1的输入层为1个标准卷积层和1个标准卷积块,包含两个分支,分别适用于3维的RGB图像和1维的显著性图像,除了第一个标准卷积层外均网络共享;之后使用4个下采样层,每个下采样层分别包含4,6,3,3个卷积模块,除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作,其余均为标准卷积层;之后再接2个标准卷积块,及5个上采样层,其中每个上采样层均包含3个标准卷积层,且最后一个卷积层后接上采样操作;最后接由1个标准卷积块和1个标准卷积层构成的输出层;生成器中除最后一层采用Sigmoid激活函数,其余层均采用ReLU激活函数,其中编码器部分为输入层、下采样层及2个标准卷积块,解码器部分包含上采样层和输出层;

判别器网络依次采用3个下采样层和3个全连接层,下采样层为两个标准卷积层后接最大池化操作,全连接层前两层采用Tanh激活函数,最后一层采用Sigmoid激活函数;映射网络则由6个输入维度不同的全连接块并行构成,全连接块包含两层全连接层,中间由ReLU激活函数连接;

2)构建的GAN模型中的生成器G1,其输入的真实RGB图像和显著性图像分别为Xr和Xg,分别经过输入层的两个分支,再经过1)中所描述的网络模块,最终得到显著性图像Xpre和Xidt

构建的GAN模型中的判别器D1,其输入为RGB图像与显著性图像的拼接,即(Xr,Xg)和(Xr,Xpre),大小均为4×256×256,经过1)中所描述的网络模块最终得到1维向量,记作D1(Xr,Xg)和D1(Xr,Xpre);

构建的映射网络F,其输入为不同图像经过生成器中编码器部分不同网络层提取得到的嵌入特征;具体而言,对于图像Xr,Xg,Xpre和Xidt,定义编码器模型为E,其有L层子网络,则对于任意一张图像X∈{Xg,Xr,Xpre,Xidt},第i层网络的输出表示为Ei(X),Ei(X)经过对应维度的Fi网络得到嵌入特征,再从中采样得到最终的嵌入特征Fi(X);

步骤3:确定第一阶段的损失函数;

采用步骤2中对模型、图像和特征的定义,生成器G1的输入为Xr和Xg,输出为Xpre和Xidt;判别器D1的输入为(Xr,Xg)和(Xr,Xpre),输出为D1(Xr,Xg)和D1(Xr,Xpre),映射网络F的输入为Ei(X),X∈{Xg,Xr,Xpre,Xidt},输出为Fi(X),X∈{Xg,Xr,Xpre,Xidt}, 则网络损失可以描述为:

其中,为判别器的损失函数,为生成器和映射网络的损失函数,为期望函数,和分别为生成器的对抗损失、内容损失和多层区域对比损失,a,b为损失系数;

生成器的对抗损失的数学表达式为:

内容损失包含三部分,分别为交叉熵损失,结构相似性损失和交并比损失;

其内容损失的数学表达式为:

多层区域对比损失则选用不同网络层的特征进行计算,其数学表达式为:

其中,i表示第i层网络层,j表示第j个采样区域,表示定义16的对比损失,S表示总的采样区域数,S\j表示除j之外的采样区域,表示X1提取的第i层的第j个特征向量,其正样本为对应的其它区域的特征向量X∈{X1,X2}则为负样本;

步骤4:训练第一阶段的显著性检测网络;

利用步骤3构建的损失函数对网络进行训练,在更新G1和F时固定D1的参数,而更新D1时则固定G1和F的参数,每次迭代交替更新一次,知道训练完成;

步骤5:测试第一阶段的显著性检测网络;

选取ECSSD数据集和DUTS-TE数据集,采用与步骤1相同的预处理方式,利用步骤4中训练好的生成器G1,对于每一张输入RGB图像Xg,得到其显著性图像Xpre

步骤6:对第二阶段的数据集进行预处理;

获取Caltech256数据集和ImageNet CLSLOC数据集作为训练集,首先随机打乱图像顺序;其次对输入图像进行尺寸归一化;最后对图像像素进行归一化至范围[-1,1];

步骤7:构建第二阶段的生成图像显著性可视化网络;

构建的GAN模型由三个子网络构成,包含一个生成器G,一个判别器D,一个编码器,其中,生成器输入为随机采样的高斯噪声,输出为图像,而判别器输入为图像,输出为表示真假的标量值,编码器的输入为图像,输出为嵌入特征;

生成器G依次采用1个全连接层,3个上采样残差网络块和1个标准卷积层,除了最后的卷积层采用Tanh激活函数,其余层均采用ReLU激活函数;判别器D依次采用4个下采样残差网络块,再经过全局平均池化,后接1个全连接层,均采用ReLU激活函数;编码器由第一阶段训练好的生成器G1与映射网络F一同构成;

步骤8:设计第二阶段的损失函数;

记真实图像为Xreal,定义生成器G的输入噪声为z,输出图像为G(z);定义编码器的输入为G(z),编码器的输出为映射网络F的输入,记为G1(G(z));定义判别器D的输入为Xreal和G1(G(z)),输出分别记为D(Xreal)和D(G(z));则网络损失可以描述为:

其中,为判别器的损失函数,为生成器的损失函数,为期望函数,为区域对比损失,a为损失系数;

步骤9:训练第二阶段的生成对抗网络;

利用步骤7构建的损失函数对网络进行训练,编码器采用步骤4预训练好的网络,并在训练中保持固定,交替更新生成器和判别器,直到训练完成;

步骤10:测试第二阶段的生成对抗网络;

随机采样输入噪声z,利用步骤9中训练好的生成器G和步骤4训练好的生成器G1,对于每一张生成图像G(z),得到其显著性图像G1(G(z))。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110624243.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top