[发明专利]一种基于生成性对抗网络的模态一致性跨模态检索方法有效
申请号: | 202010143786.8 | 申请日: | 2020-03-04 |
公开(公告)号: | CN111460201B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 吴智勇;吴飞;王彩玲;董西伟;罗晓开;荆晓远;季一木 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 一致性 跨模态 检索 方法 | ||
本发明公开了一种基于生成性对抗网络的模态一致性跨模态检索方法,包括以下步骤:首先利用生成性对抗网络强大的数据分布建模能力,将文本特征映射到图像特征空间,用这种方法将跨模态检索问题转换为单模态检索问题,尽可能多地保留图像语义信息的同时减小模态的异质性。其次,设计了一个模态一致性哈希网络,将真实的图像特征和通过生成性对抗网络生成的特征投影到汉明空间中,并且利用标签信息对模态间和模态内的相似性进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性,获得更具判别性的哈希码。最后在两个常用的基准数据集上的实验结果表明本方法与现有的流行方法相比具有更好的跨模态检索性能。
技术领域
本发明涉及一种模态检索方法,尤其涉及一种基于生成性对抗网络的模态一致性跨模态检索方法。
背景技术
在当今互联网科技浪潮的冲击下,网络在信息传播中扮演着越来越重要的角色,成为人们获取信息的重要方式。总体上看,当前网络上的多模态数据的特点可以概括为数据量大、数据蕴含模态多样,不同模态间存在较强语义相关性。这些不同模态的数据既包含大量的公共信息又含有各自独有的信息,同时不同模态信息间在某个语义层次上存在较强的关联。传统的数据挖掘研究经过长期的发展已经取得了丰硕的成果,但是在多模态数据不断增长的大数据时代,伴随着用户对于面向多模态数据的挖掘工具的需求与日俱增,传统的、面向单模态任务的数据挖掘模型已经不能充分满足这种需求。传统的数据挖掘任务一般假定全部数据均属于同一个模态,例如在图片检索或分类任务中,传统的分类器一般只利用图片本身的信息,而用于文本检索和分类任务的模型一般只利用来自文本的信息,这些模型都没有考虑到利用不同模态信息间的关联关系来辅助模型的训练。如果使用这些建立在单模态数据基础上的数据挖掘模型来处理多模态数据,将不利于充分利用不同模态数据所具有关联关系,容易造成信息浪费。
发明内容
发明目的:针对以上问题,本发明提出一种用于语义区分的模态一致性哈希网络,并利用该网络进行跨模态检索。
技术方案:为实现本发明的目的,本发明所述的基于生成性对抗网络的模态一致性跨模态检索方法,该方法包括步骤:
(1)获取训练数据集,其中每个样本包括文本和图像;
(2)对训练数据集里图像和文本分别进行特征提取;
(3)基于生成性对抗网络,将文本特征映射到图像特征空间;
(4)通过模态一致性哈希网络生成对应模态样本的哈希码;
(5)根据生成性对抗网络的损失函数及哈希码的分类损失函数训练网络;
(6)根据步骤(5)中训练完成的网络对模态样本进行检索。
进一步地,所述训练数据集包括Wikipedia数据集、NUS-WIDE数据集。
进一步地,所述步骤(2)包括:
(21)利用VGG-19网络提取第七部分FC-7层的图像特征;
(22)采用词袋模型提取文本特征。
进一步地,所述VGG-19网络最后3层全连接层,前两层设置dropout层,比例为0.5,激活函数为ReLU,第3层的激活函数为Softmax。
优选地,所述步骤(3)包括:
(31)基于生成性对抗网络将文本特征映射到图像特征空间,得到N对图像和文本特征实例的集合分别得到图像特征数据集V=[v1,...,vN]和文本特征训练集T=[t1,...,tN];其中,每个实例on=(vn,tn)包含了一个图像特征向量和一个文本特征向量dv和dt分别表示两个模态的特征的维度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010143786.8/2.html,转载请声明来源钻瓜专利网。