[发明专利]一种基于语义纠错下生成对抗网络的零样本学习方法有效
申请号: | 202110701351.5 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113378959B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 潘杰;李赛男;邹筱瑜 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/764;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 吴旭 |
地址: | 221116 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 纠错 生成 对抗 网络 样本 学习方法 | ||
1.一种基于语义纠错下生成对抗网络的零样本学习方法,其特征在于,包括:
步骤1:在语义纠错网络SR中,利用参照视觉空间去修正原始语义空间,将可见类的原始语义特征和对应类别的视觉特征送入纠错网络里,对视觉特征和原始语义特征做归一化处理,采用ResNet101提取好的视觉特征去计算视觉中心向量pc;
其中,Nc是类别c的实例数,是类别c的第i个视觉特征;
步骤2:建立语义纠错网络模型,该网络由两层全连接层构成,输入层由sigmoid激活函数激活,输出层由LeakyReLU激活函数激活;
步骤3:首先,获取待分析数据,导入数据集的视觉特征矩阵、原始语义特征矩阵、标签;由于数据集里的视觉特征矩阵里的样本不同类别的特征存放的顺序是打乱的,每一类样本的个数也是未知的;
步骤4:先从标签列表中计算每一类样本的个数,再用标签的位置索引去提取视觉特征矩阵里每一类别样本的特征,再去计算相应每一类别的样本的特征均值,最后得到一个视觉中心向量矩阵P;
步骤5:利用余弦相似度函数δ来计算视觉中心向量对与语义特征之间的相似度;
步骤6:先计算视觉中心向量两两之间的余弦相似度δ(pi,pj),直接采用余弦矩阵函数计算视觉中心向量矩阵P的余弦相似度;
步骤7:再计算修正后语义特征两两之间的余弦相似度δ(R(si),R(sj)),采用余弦矩阵函数计算纠正后的语义特征矩阵的余弦相似度;
步骤8:由视觉中心向量矩阵的余弦相似度减去纠正后的语义特征矩阵的余弦相似度再求L2范数,从而得到一个修正后的语义特征与视觉特征之间的直接距离的结构损失;
步骤9:计算原始语义特征与修正后语义特征之差,对矩阵再求均值,再计算L2范数,从而得到一个衡量修正前后语义之间的信息损耗的语义损失;
步骤10:构造损失函数:将结构损失和语义损失加起来构成修正网络的总损失LR;
其中|cs|是可见类别的数量,s是原始语义特征,R(s)是修正之后的语义特征,δ是余弦相似度函数,是语义特征s的期望均值,公式中的第一项是表示修正后的语义特征与视觉特征之间的直接距离的结构损失,第二项是语义损失,衡量修正前后语义之间的信息损耗;
步骤11:利用梯度下降法对总损失LR进行优化,纠错网络训练结束之后,固定好纠错网络的参数;
步骤12:训练softmax分类器来学习分类器,即使用生成的特征允许在真实的可视类数据和生成的不可见类数据的组合训练;其中,使用标准的softmax分类器最小化负对数似然损失:
其中,是全连接层的权重矩阵,它将图像特征映射成n个类别的非正规概率,n表示类别的数目,v是视觉特征,y是类别标签,Τ是类别总数目;P(y|v;θ)表示图像特征被预测为真实标签的概率;
其中,是第i个类别的权重,表示预测类别y的权重,P(y|x;θ)计算的是样本被预测为每一个类别的概率;最终的分类预测函数为:
输出概率值最大的类别作为预测类别;在常规零样本学习ZSL中,测试仅仅用到不可见类别,y∈yu,y表示测试类别标签,yu表示不可见类别的标签集合;在广义零样本学习GZSL中,测试时可见类和不可见类别都被使用,y yu ys,ys表示可见类别的标签集合;softmax分类器是在可见类的真实视觉特征上预训练好的;
步骤13:训练生成对抗网络,采样若干原始语义特征s,修正之后的语义特征R(s),随机噪声z送入生成对抗网络的生成器G里去生成特征,固定生成器G,训练判别器D;
步骤14:训练好判别器D之后,再训练生成器G;采样一小批量的原始语义特征s,纠错后的语义特征R(s),随机噪声z,固定判别器D,训练生成器G;
其中,LWGAN表示生成对抗网络的损失,D(v,s)表示将视觉特征v和原始语义特征s送到判别器网络D所产生的结果,表示将合成视觉特征和原始语义特征s送进判别器网络D所产生的结果,表示的梯度,表示和原始语义特征s送进判别器网络D所产生的结果,表示由生成器G合成的特征;其中α∈U(0,1),U(0,1)表示区间(0,1);λ表示梯度惩罚系数,E表示期望均值;最终优化目标是:
其中,β是一个超参数表示分类损失的权重,公式第一项是WGAN自身损失LWGAN,第二项中表示分类损失,其中表示被预测为真实标签的概率,表示合成视觉特征的期望均值,这个条件概率是由一个参数化为θ的线性softmax分类器计算,改分类器由可见类的实际特征进行预训练;利用上述公式更新G;
步骤15:训练完成后,输出类别标签,计算分类准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110701351.5/1.html,转载请声明来源钻瓜专利网。