[发明专利]一种基于多输入多输出融合网络的广义零样本学习方法有效
申请号: | 202110096703.9 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112766386B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 钟芳明;陈志奎;张素华 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 李晓亮;潘迅 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 输入 输出 融合 网络 广义 样本 学习方法 | ||
1.一种基于多输入多输出融合网络的广义零样本学习方法,其特征在于,所述的多输入多输出融合网络采用不同类型的输入数据依然能够生成相似的公共语义表示,能够同时生成可见类和不可见类伪样本,包括以下步骤:
步骤1、构建多输入多输出融合网络;
多输入多输出融合网络,采用前向神经网络E(·,θE)实现,融合网络接收4种不同类型的输入数据,生成对应的公共语义表示Z;其中,θE表示网络参数,对应的4种输出表示为:Zpair=E((x,a),θE),Zattri=E((0,a),θE),Zvisual=E((x,0),θE),Znegative=E((x-,a),θE),其中x表示图像视觉特征,a表示对应的语义嵌入,x-表示随机选择的与a不匹配的语义嵌入,0表示零向量填充,4种表示分别为:Zpair为成对输入①(x,a)对应的公共语义表示、Zattri为非配对数据②(0,a)对应的公共语义表示、Zvisual为非配对数据③(x,0)对应的公共语义表示、Znegative为负样本非配对数据④(x-,a)对应的公共语义表示;
所述的4种不同类型的输入数据具体为:①由图像的视觉特征和对应的语义嵌入拼接成的配对数据、②非配对数据仅包含语义嵌入、③非配对数据仅包含视觉特征、④负样本非配对数据由语义嵌入和不匹配的视觉特征拼接;
步骤2、构建判别网络;
采用判别网络,通过区分配对数据和非配对数据,以对抗方式训练融合网络,学习语义表示更准确的网络模型;设计三种判别网络D1(·,θD1)、D2(·,θD2)、D3(·,θD3),其中θD1、θD2、θD3表示网络参数;三种判别网络都将Zpair作为真样本;对于D1,将Zattri作为假样本;对于D2,将Zvisual作为假样本;此外,负样本也被引入来强化对抗训练,因此对于D3,Znegative作为假样本;对抗损失Ladv定义如公式(1)所示:
Ladv=Ladv1+Ladv2+Ladv3 (1)
其中,Ladv1表示判别网络D1的对抗损失,Ladv2表示判别网络D2的对抗损失,Ladv3表示判别网络D3的对抗损失,分别如公式(2)、(3)、(4)所示;
式中:E表示求期望,~表示满足某分布的符号,pdata()表示数据分布符号,Zpair~pdata(Zpair)表示分别求logD1(Zpair)、logD2(Zpair)、logD3(Zpair)期望时的所有数据范围,代指所有Zpair的数据,Zattri~pdata(Zattri)表示取所有数据Zattri时log(1-D1(Zattri))的期望,Zvisual~pdata(Zvisual)表示取所有数据Zvisual时log(1-D2(Zvisual))的期望,Znegative~pdata(Znegative)表示取所有数据Znegative时log(1-D3(Znegative))的期望;
步骤3、构建重构网络;
构建重构网络,使模型能够从公共语义表示中分别重构出原始图像视觉特征,最小化重构误差,优化融合网络;当整个模型训练完毕的时候,重构网络同时作为生成器,用于生产不可见类和可见类的伪样本;仅对除负样本之外的其他三种输入数据所获取的公共语义表示进行重构:将Zpair、Zattri、Zvisual都填入到视觉特征重构网络G1(·,θG1)中,其中θG1表示网络参数,网络的重构损失Lrec表示如公式(5)所示,其中重构网络有三个,共享权重;
其中,Xs是可见类图像数据的视觉特征,E表示求期望;Xs~pdata(Xs)表示取所有视觉特征Xs;表示取所有数据Zpair~pdata(Zpair)、Xs~pdata(Xs)时对应的期望;表示取所有数据Zattri~pdata(Zattri)、Xs~pdata(Xs)时对应的期望;表示取所有数据Zvisual~pdata(Zvisual)、Xs~pdata(Xs)时对应的期望;
步骤4、构建分类网络;
设计一个分类误差,用于提高所学习公共语义表示的判别能力,通过预测标签,最小化分类损失实现;分类网络同样为一个前向网络P(·,θP),接收Zpair、Zattri、Zvisual作为输入,其中θP表示网络参数;分类误差Llabel定义为公式(6)所示:
其中,YZ表示Z的标签数据,Ys表示可见类即训练数据的标签集合,Yz~pdata(Ys)表示YZ属于Ys;Z~pdata(Zattri∪Zvisual∪Zpair)表示Z属于数据Zattri,Zvisual,Zpair的并集,∪是求并集符号;P(Z)表示分类网络以Z为输入的标签预测结果;表示取所有的Z和YZ时的期望;
步骤5、流形学习、域结构保持;
采用流形学习的方式在公共语义表示上对原始数据的结构进行保持;对于输入类型①、②、③,在生成的对应公共语义表示上进行结构保持,采用拉普拉斯图正则化的方式,域结构保持定义如公式(7)所示:
Lmanifold=Tr(ZpairTLpZpair)+Tr(ZattriTLaZattri)+Tr(ZvisualTLvZvisual) (7)
公式(7)中Lp表示成对数据①的拉普拉斯矩阵,根据成对数据的相似度Spair计算,Lp=Dp-Spair,其中Dp是一个对角阵,其对角元为Spair的行求和,Spair计算公式如公式(8)所示:
公式(7)中La表示非配对数据②对应的拉普拉斯矩阵,根据非配对数据②的相似度Sattri计算得到;Sattri根据样本之间的邻居关系计算,如公式(9)所示:
其中,若输入数据的第i个样本和第j个样本的距离小于等于e则取值为1,否则为0;dist(a(i),a(j))表示类别语义嵌入输入数据的样本a(i)和样本a(j)之间的距离,dist(·)表示距离函数;e=max(dist(a(i),a(j)))/20是阈值参数;
采用类似的方法计算非配对数据③,即仅包含图像视觉特征的相似度矩阵Svisual,计算其对应的拉普拉斯矩阵Lv;
步骤6、构建融合网络总损失函数,训练网络模型,保存模型参数;
训练过程中,通过对抗的形式进行训练,首先训练判别网络,然后是融合网络、重构网络和分类网络;根据步骤2-步骤5的公式(1)、(5)、(6)、(7)得到模型的总体损失函数,如公式(10)所示:
L=Lmanifold+Llabel+Lrec-Ladv (10)
步骤7、生成伪样本,训练分类器SVM;
模型训练好之后,设置可见类和不可见类生成样本的数量,从高斯分布中采样对应数量的噪声数据,拼接需要生成的类别语义嵌入输入到融合网络中,生成公共语义表示,通过重构网络生成的视觉特征作为该类别的样本数据;训练分类器时仅使用生成的伪样本数据;
步骤8、广义零样本图像识别;
分类器如SVM训练完之后,新出现的测试样本能够直接输入到分类器得到识别的结果;如此,无论新到来的图像属于可见类数据,还是不可见类的零样本数据,分类器都能对其进行诊断识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110096703.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝塑复合板及其制备方法和应用
- 下一篇:一种圆柱物料自动整理传送装置