[发明专利]基于深度学习的跨模态主题相关性建模方法有效
申请号: | 201610099438.9 | 申请日: | 2016-02-23 |
公开(公告)号: | CN105760507B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 张玥杰;程勇;刘志鑫;金城;张涛 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06F16/35;G06K9/62 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 跨模态 主题 相关性 建模 方法 | ||
本发明属于跨媒体相关性学习技术领域,具体为基于深度学习的跨模态主题相关性建模方法。本发明包括两个主要算法:基于深度词汇的多模态文档表示,融合跨模态主题相关性学习的关系主题模型建模。本发明利用深度学习技术来构造深度语义词汇和深度视觉词汇来分别描述多模态文档中的语义描述部分和图像部分。基于这样的多模态文档表示,通过构建跨模态关系主题模型来对整个多模态文档集合进行建模,从而对多模态文档的生成过程和不同模态之间的关联进行描述。本方法准确性高,适应性强。这对于在大规模多模态文档(文本加图像)基础上,考虑多模态语义信息而进行高效跨媒体信息检索具有重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。
技术领域
本发明属于跨媒体相关性学习技术领域,具体涉及基于深度学习的跨模态图像-文本主题相关性学习方法。
背景技术
随着互联网技术的发展与Web2.0的成熟,在互联网上累计海量的多模态文档,如何分析和处理这些多模态文档的复杂结构,从而为跨媒体检索等实际应用提供理论支持已经变成一个非常重要的研究热点。通常来说,一个多模态文档通常以多种模态共现的形式存在,例如,许多的web图像附带着很多用户自定义的图像描述或者标注,另外也有一些网络的文档包含一些插图的形式。然而,虽然这些多模态的数据常常彼此关联,但由于语义鸿沟的问题,在图像的视觉信息和文本描述信息之间有着很大的区别和差异[1],这使得充分利用不同模态之间的语义关联变得十分困难。因此,如何充分挖掘不同模态数据背后隐含的关系,并且更好地融合多模态信息来对多模态文档进行建模变得十分的重要[2,3]。而利用主题模型来对多模态文档进行建模,进而挖掘不同模态之间的关联是一个重要策略,在跨模态主题建模的研究中,存在着三个相互关联的问题需要同时得到解决:
1、发现和构建更加有代表性、更加有价值的文档元素来对多模态文档中的图像和文本内容分别进行描述表示。
2、能够建立更加合理的主题相关性模型来更好地对多模态文档中不同模态数据之间的关联进行描述,即视觉图像和文本描述之间的关联。
3、通过跨模态主题相关性学习来针对图像和文本内容之间的内在关联性建立一种客观的衡量机制。
为解决第一个问题,最重要的就是探索如何能够建立一组优化的文档元素,从而利用这些优化的文档元素能够更加精确、更加全面地对多模态文档中的视觉和语义特征进行表达。
为解决第二个问题,最重要的是能够建立一个更加鲁棒的概率主题模型,从而挖掘背后的隐含主题信息使得观察到的多模态主题文档的似然度值达到最大。
为解决第三个问题,最有效的解决方式是把不同模态的属性特征映射到共同的嵌入子空间中,从而最大化不同模态信息之间的关联信息。
当前已有一些研究者针对多模态数据建模提出不同方法,从建模角度来看这些方法大致可以分为两类,第一类是统计依赖建模方法,第二类是构建联合概率生成模型方法。
(1)统计依赖的建模方法
统计建模方法的核心思想是将不同模态的数据特征映射到相同的潜在空间,从而期望最大程度地挖掘不同模态数据特征之间的统计相关性。以图像和文本为例,通过构建相应的映射矩阵,分别将不同结构的图像特征和文本特征映射到相同的公共子空间中,在公共子空间中计算图像和文本的相关性,越相关的图像和文本在公共子空间中的距离也就越近,反之距离越远意味着图像与文本的相关性也越低。典型相关性分析方法(CanonicalCorrelation Analysis,CCA)是一种最典型的统计依赖方法,其通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间基向量矩阵;空间基向量矩阵最大化地保持图像视觉特征和语义特征的相关性,并提供其映射到同构子空间的映射关系;进而将图像的视觉特征向量和语义特征向量映射到同维度下同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示。之后的工作如KernelCCA(KCCA)以及deepCCA(DCCA)在更深层次里来对图像和文本之间的依赖关系进行探讨。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610099438.9/2.html,转载请声明来源钻瓜专利网。