[发明专利]基于对偶学习生成对抗网络的跨模态泛化零样本检索方法有效
申请号: | 202010337222.8 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111581405B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 徐行;朱佳文;沈复民;汪政;杨阳;申恒涛 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/48 | 分类号: | G06F16/48;G06F16/45;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对偶 学习 生成 对抗 网络 跨模态 泛化 样本 检索 方法 | ||
1.一种基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,该方法包括以下步骤:
步骤S1:选择训练数据集,对训练数据进行预处理操作,生成视觉特征和语义特征,生成的视觉和语义特征作为构建的跨模态检索网络模型的输入;
步骤S2:构建跨模态检索网络模型,对所述跨模态检索网络模型的网络结构进行设计和构造;
步骤S3:构造约束,对所构建的跨模态检索网络模型设计约束,在之后的网络训练过程中以求生成信息损失最小;
步骤S4:训练所述跨模态检索网络模型,将不同模态视觉特征映射到共享的潜在语义空间中;
步骤S5:验证模型检索效果,获取当剔除相关约束或语义特征模型后,所述跨模态检索网络模型对应检索性能的描述数据;
其中,所述跨模态检索网络模型的网络结构包括多模态特征提取模块、基于对偶学习的对抗生成模块和基于多模态检索模块;
多模态特征提取模块是泛化零样本检索问题的基础层,提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练;对于视觉特征的提取,以基于ImageNet进行预训练的VGG16网络作为基础网络,在最后加入注意力机制,提取了512维的视觉表征;对于语义特征的提取,结合文本模型和层次模型建立特征选择自动编码器,最终提取了M维的语义特征;从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入;
用X,Y分别表示多模态视觉特征提取模块提取出的两个模态的视觉特征,X为草图视觉特征,Y为自然图像视觉特征;用S表示语义特征提取模块提取出的视觉特征对应的语义特征;
所述基于对偶学习的对抗生成模块包括视觉-语义双向映射网络,将重构的特征和原始特征相比较,通过约束缩短它们的距离来实现跨域对齐,从而减小语义损失,使得所述跨模态检索网络模型在泛化零样本检索问题上性能更为强大,通过生成器Generator基于语义特征生成相应的视觉特征;以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间;Generator和Regressor与判别器Discriminator组成生成对抗网络结构;
在语义-视觉映射中,Generator,包括Gsk:S-X和Gim:S-Y,选取了CVAE网络模型,其中编码器Encoder首先基于视觉特征X或Y生成了一个噪声向量k,再将语义特征与相应噪声向量k相结合,作为CVAE模型中解码器Decoder的输入,用于生成语义特征相应的视觉特征X′和Y′;生成的视觉特征通过Regressor再次映射回语义模态,得到相应的语义特征;在训练过程中,样本中的视觉特征X/Y通过Regressor生成相应的语义特征,再通过Generator反向映射回相应视觉空间;
其中,Regressor就是最终所需要的模型,即多模态视觉特征-语义特征的生成模型,包括Rsk:X-S和Rim:Y-S;
作为基于多模态检索模块的基础模型,Gsk的CVAE训练网络的目标约束被设置为:
其中,Gsk的CVAE的编码器PE(k|x)基于给定的草图x生成相应的噪声向量k;CVAE中的PD(x|k,s)基于噪声向量k和源语义特征s生成相应的草图视觉特征;E[*]为均方损失误差损失函数;P(k)是一个单元高斯分布;DKL(p||q)为KL散度,KL散度又称为相对熵,信息散度,信息增益,KL散度是两个概率分布q和p差别的非对称性的度量,KL散度是用来度量使用基于q的编码来编码来自p的样本平均所需的额外的位元数,p表示数据的真实分布,q表示数据的理论分布、模型分布或p的近似分布;
对于Gim有相似的CVAE训练网络,其目标约束被设置为:
其中,Gim的CVAE的编码器PE(k|y)基于给定的自然图像y生成相应的噪声向量k;CVAE中的PD(y|k,s)基于噪声向量k和源语义特征s生成相应的自然图像视觉特征;E[*]为均方损失误差损失函数;P(k)是一个单元高斯分布;
所述基于多模态检索模块包括通过Regressor将测试集样本映射到语义子空间上,得到相应实值特征或二元特征;以及通过计算两个视觉模态的相似性矩阵得到给定检索目标相应的其他模态数据的匹配情况;
语义特征的特征选择自动编码器结合了特定的文本模型和层次模型,获得的语义表征包含文本侧信息和层次侧信息,两种信息互为补充,使语义特征更具有鲁棒性;
同时,由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010337222.8/1.html,转载请声明来源钻瓜专利网。