[发明专利]一种基于多输入多输出融合网络的广义零样本学习方法有效

申请号：	202110096703.9	申请日：	2021-01-25
公开（公告）号：	CN112766386B	公开（公告）日：	2022-09-20
发明（设计）人：	钟芳明;陈志奎;张素华	申请（专利权）人：	大连理工大学
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/08
代理公司：	大连理工大学专利中心 21200	代理人：	李晓亮;潘迅
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于输入输出融合网络广义样本学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多输入多输出融合网络的广义零样本学习方法，其特征在于，所述的多输入多输出融合网络采用不同类型的输入数据依然能够生成相似的公共语义表示，能够同时生成可见类和不可见类伪样本，包括以下步骤：

步骤1、构建多输入多输出融合网络；

多输入多输出融合网络，采用前向神经网络E(·,θ_E)实现，融合网络接收4种不同类型的输入数据，生成对应的公共语义表示Z；其中，θ_E表示网络参数，对应的4种输出表示为：Z_pair＝E((x,a),θ_E)，Z_attri＝E((0,a),θ_E)，Z_visual＝E((x,0),θ_E)，Z_negative＝E((x^-,a),θ_E)，其中x表示图像视觉特征，a表示对应的语义嵌入，x^-表示随机选择的与a不匹配的语义嵌入，0表示零向量填充，4种表示分别为：Z_pair为成对输入①(x,a)对应的公共语义表示、Z_attri为非配对数据②(0,a)对应的公共语义表示、Z_visual为非配对数据③(x,0)对应的公共语义表示、Z_negative为负样本非配对数据④(x^-,a)对应的公共语义表示；

所述的4种不同类型的输入数据具体为：①由图像的视觉特征和对应的语义嵌入拼接成的配对数据、②非配对数据仅包含语义嵌入、③非配对数据仅包含视觉特征、④负样本非配对数据由语义嵌入和不匹配的视觉特征拼接；

步骤2、构建判别网络；

采用判别网络，通过区分配对数据和非配对数据，以对抗方式训练融合网络，学习语义表示更准确的网络模型；设计三种判别网络D₁(·,θ_D1)、D₂(·,θ_D2)、D₃(·,θ_D3)，其中θ_D1、θ_D2、θ_D3表示网络参数；三种判别网络都将Z_pair作为真样本；对于D₁，将Z_attri作为假样本；对于D₂，将Z_visual作为假样本；此外，负样本也被引入来强化对抗训练，因此对于D₃，Z_negative作为假样本；对抗损失L_adv定义如公式(1)所示：

L_adv＝L_adv1+L_adv2+L_adv3 (1)

其中，L_adv1表示判别网络D₁的对抗损失，L_adv2表示判别网络D₂的对抗损失，L_adv3表示判别网络D₃的对抗损失，分别如公式(2)、(3)、(4)所示；

式中：E表示求期望，～表示满足某分布的符号，pdata()表示数据分布符号，Z_pair～pdata(Z_pair)表示分别求logD₁(Z_pair)、logD₂(Z_pair)、logD₃(Z_pair)期望时的所有数据范围，代指所有Z_pair的数据，Z_attri～pdata(Z_attri)表示取所有数据Z_attri时log(1-D₁(Z_attri))的期望，Z_visual～pdata(Z_visual)表示取所有数据Z_visual时log(1-D₂(Z_visual))的期望，Z_negative～pdata(Z_negative)表示取所有数据Z_negative时log(1-D₃(Z_negative))的期望；

步骤3、构建重构网络；

构建重构网络，使模型能够从公共语义表示中分别重构出原始图像视觉特征，最小化重构误差，优化融合网络；当整个模型训练完毕的时候，重构网络同时作为生成器，用于生产不可见类和可见类的伪样本；仅对除负样本之外的其他三种输入数据所获取的公共语义表示进行重构：将Z_pair、Z_attri、Z_visual都填入到视觉特征重构网络G₁(·,θ_G1)中，其中θ_G1表示网络参数，网络的重构损失L_rec表示如公式(5)所示，其中重构网络有三个，共享权重；

其中，X_s是可见类图像数据的视觉特征，E表示求期望；X_s～pdata(X_s)表示取所有视觉特征X_s；表示取所有数据Z_pair～pdata(Z_pair)、X_s～pdata(X_s)时对应的期望；表示取所有数据Z_attri～pdata(Z_attri)、X_s～pdata(X_s)时对应的期望；表示取所有数据Z_visual～pdata(Z_visual)、X_s～pdata(X_s)时对应的期望；

步骤4、构建分类网络；

设计一个分类误差，用于提高所学习公共语义表示的判别能力，通过预测标签，最小化分类损失实现；分类网络同样为一个前向网络P(·,θ_P)，接收Z_pair、Z_attri、Z_visual作为输入，其中θ_P表示网络参数；分类误差L_label定义为公式(6)所示：

其中，Y_Z表示Z的标签数据，Y_s表示可见类即训练数据的标签集合，Y_z～pdata(Y_s)表示Y_Z属于Y_s；Z～pdata(Z_attri∪Z_visual∪Z_pair)表示Z属于数据Z_attri,Z_visual,Z_pair的并集，∪是求并集符号；P(Z)表示分类网络以Z为输入的标签预测结果；表示取所有的Z和Y_Z时的期望；

步骤5、流形学习、域结构保持；

采用流形学习的方式在公共语义表示上对原始数据的结构进行保持；对于输入类型①、②、③，在生成的对应公共语义表示上进行结构保持，采用拉普拉斯图正则化的方式，域结构保持定义如公式(7)所示：

L_manifold＝Tr(Z_pair^TL_pZ_pair)+Tr(Z_attri^TL_aZ_attri)+Tr(Z_visual^TL_vZ_visual) (7)

公式(7)中L_p表示成对数据①的拉普拉斯矩阵，根据成对数据的相似度S_pair计算，L_p＝D_p-S_pair，其中D_p是一个对角阵，其对角元为S_pair的行求和，S_pair计算公式如公式(8)所示：

公式(7)中L_a表示非配对数据②对应的拉普拉斯矩阵，根据非配对数据②的相似度S_attri计算得到；S_attri根据样本之间的邻居关系计算，如公式(9)所示：

其中，若输入数据的第i个样本和第j个样本的距离小于等于e则取值为1，否则为0；dist(a(i),a(j))表示类别语义嵌入输入数据的样本a(i)和样本a(j)之间的距离，dist(·)表示距离函数；e＝max(dist(a(i),a(j)))/20是阈值参数；

采用类似的方法计算非配对数据③，即仅包含图像视觉特征的相似度矩阵S_visual，计算其对应的拉普拉斯矩阵L_v；

步骤6、构建融合网络总损失函数，训练网络模型，保存模型参数；

训练过程中，通过对抗的形式进行训练，首先训练判别网络，然后是融合网络、重构网络和分类网络；根据步骤2-步骤5的公式(1)、(5)、(6)、(7)得到模型的总体损失函数，如公式(10)所示：

L＝L_manifold+L_label+L_rec-L_adv (10)

步骤7、生成伪样本，训练分类器SVM；

模型训练好之后，设置可见类和不可见类生成样本的数量，从高斯分布中采样对应数量的噪声数据，拼接需要生成的类别语义嵌入输入到融合网络中，生成公共语义表示，通过重构网络生成的视觉特征作为该类别的样本数据；训练分类器时仅使用生成的伪样本数据；

步骤8、广义零样本图像识别；

分类器如SVM训练完之后，新出现的测试样本能够直接输入到分类器得到识别的结果；如此，无论新到来的图像属于可见类数据，还是不可见类的零样本数据，分类器都能对其进行诊断识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110096703.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多输入多输出融合网络的广义零样本学习方法有效

专利文献下载