[发明专利]基于自适应亲和力和类别分配的弱监督语义分割方法在审
申请号: | 202011550953.7 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112668579A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 张向荣;彭泽林 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06T7/12 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 亲和力 类别 分配 监督 语义 分割 方法 | ||
1.一种基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2;
(2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A:
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层和分类器,像素分类网络包括多个卷积层;
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A的损失函数Ltotal:
其中表示图像分类网络的多标签损失函数,和分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示在Ltotal上的加权因子,λ2表示在Ltotal上的加权因子,表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1,和是表示伪标签中的两个像素点i和j相关关系的集合,表示i和j在邻域尺度为sk的情况下,类别标签均属于前景且类别标签相同,表示i和j的邻域尺度为sk的情况下,类别标签均属于背景且类别标签相同,表示伪标签中的两个像素点i和j在邻域尺度为sk的情况下,其类别标签不相同,和分别表示属于和集合中像素点的个数,和分别表示在集合和的约束下的单一分层自适应亲和力损失函数,表示计算像素分类网络输出的概率pi与pj相关关系的置信度,表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于前景的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,表示像素分类网络输出的概率pi与类别概率中心点ci的距离,表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,Na>1,和分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
(3)对基于自适应亲和力和类别分配的弱监督语义分割模型A进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A为At,At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,T≥105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,其中2≥R≥8;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类物体的概率,同时计算每个语义特征对应的训练图像的类激活图和初始伪标签,并采用条件随机场对每个初始伪标签中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签;
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5;
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新;
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
(4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550953.7/1.html,转载请声明来源钻瓜专利网。