[发明专利]基于受限文本空间的对抗性跨媒体检索方法有效
申请号: | 201810101127.0 | 申请日: | 2018-02-01 |
公开(公告)号: | CN108319686B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王文敏;余政;王荣刚;李革;王振宇;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/58;G06F16/28;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 受限 文本 空间 对抗性 媒体 检索 方法 | ||
本发明公布了一种基于受限文本空间的对抗性跨媒体检索方法,设计特征提取网络、特征映射网络和模态分类器,通过学习得到受限文本空间,提取适用于跨媒体检索的图像和文本特征,实现图像特征从图像空间到文本空间的映射;通过对抗性训练机制使得学习过程中不断减小不同模态数据之间特征分布的差异性;由此实现跨媒体检索。本发明能够更好地拟合人类在跨媒体检索任务中的行为表现;得到更适用于跨媒体检索任务的图像和文本特征,弥补了预训练特征在表达能力上的欠缺;引入对抗性学习的机制,通过模态分类器与特征映射网络之间的最大最小博弈,进一步提升了检索准确率。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于受限文本空间的对抗性跨媒体检索方法。
背景技术
随着Web 2.0时代的来临,大量多媒体数据(图像,文本,视频,音频等)开始在互联网上积累和传播。与传统的单一模态检索任务不同,跨媒体检索用于实现不同模态数据之间的双向检索,比如文本检索图像和图像检索文本。然而,由于多媒体数据先天具有的异构特性,它们的相似性并不能被直接衡量。因此,该类任务的核心问题是如何找到一个同构的映射空间,使得异构的多媒体数据之间的相似性能够被直接衡量。在当前跨媒体检索领域中,人们在此问题的基础上进行了大量的研究,并且提出了一系列典型的跨媒体检索算法,比如CCA(Canonical Correlation Analysis,典型相关分析)、DeViSE(Deep Visual-Semantic Embedding,深度视觉语义嵌入)和DSPE(Deep Structure-Preserving Image-Text Embeddings,深度结构不变文本图像嵌入模型)。但是,这些方法也存在一定的缺陷。
第一个缺陷体现在多媒体数据的特征表示上。现有的方法大都采用预训练的CNN(Convolutional neural network)模型来提取图像特征,比如VGG(Visual GeometryGroup提出的神经网络结构)。然而,这些模型通常都是在图像分类任务上进行预训练,这也就导致了提取得到的图像特征只包含物体的类别信息,从而损失了一部分对于跨媒体检索来说可能是很重要的信息,比如物体的行为动作以及物体之间的交互过程等等。对于文本来说,Word2Vec,LDA(Latent Dirichlet Allocation)和FV(Fisher Vector)都是一些主流的文本特征提取方法。然而,它们也是在一些不同于跨媒体检索的数据集上进行预训练,因此提取到的特征并不适用于跨媒体检索。
第二个缺陷体现在同构特征空间的选择上。同构空间的选择大致有三种,分别是公共空间,文本空间和图像空间。从人类认知的角度来看,大脑对于文本和图像的理解过程不尽相同。对于文本,大脑可以直接提取特征并理解;而对于一张图像,大脑在理解之前总是会下意识地先用文本来描述它,即先从图像空间转换至文本空间。因此,在文本空间进行跨媒体检索更能模拟人类的认知方式。现有的基于文本空间的跨媒体检索方法大都采用Word2Vec空间作为最终的文本空间,图像在该空间的特征表示则是通过图像中物体的类别信息组合得到的。因此该特征同样会丢失图像中蕴含的丰富的动作和交互的信息,这也表明对于跨媒体检索来说,Word2Vec空间并不是一个有效的文本特征空间。
第三个缺陷体现在不同模态数据特征分布的差异性上。尽管现有的方法都会将不同模态的数据特征映射至某一同构的特征空间,但它们之间的模态鸿沟(modality gap)仍然存在,并且特征分布也存在明显的差异,这会导致跨媒体检索性能的下降。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于受限文本空间的对抗性跨媒体检索方法,首先通过学习得到与跨媒体检索任务相对应的图像和文本特征描述,其次通过模拟人类的认知方式找到一个受限文本空间,用于实现图像和文本之间的相似度衡量;该方法还引入了对抗性训练机制,旨在减少文本空间学习过程中不同模态数据之间特征分布的差异性,进而增加了检索准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810101127.0/2.html,转载请声明来源钻瓜专利网。