[发明专利]基于深度学习的跨模态主题相关性建模方法有效
申请号: | 201610099438.9 | 申请日: | 2016-02-23 |
公开(公告)号: | CN105760507B | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 张玥杰;程勇;刘志鑫;金城;张涛 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06F16/35;G06K9/62 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于跨媒体相关性学习技术领域,具体为基于深度学习的跨模态主题相关性建模方法。本发明包括两个主要算法:基于深度词汇的多模态文档表示,融合跨模态主题相关性学习的关系主题模型建模。本发明利用深度学习技术来构造深度语义词汇和深度视觉词汇来分别描述多模态文档中的语义描述部分和图像部分。基于这样的多模态文档表示,通过构建跨模态关系主题模型来对整个多模态文档集合进行建模,从而对多模态文档的生成过程和不同模态之间的关联进行描述。本方法准确性高,适应性强。这对于在大规模多模态文档(文本加图像)基础上,考虑多模态语义信息而进行高效跨媒体信息检索具有重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。 | ||
搜索关键词: | 基于 深度 学习 跨模态 主题 相关性 建模 方法 | ||
【主权项】:
1.一种基于深度学习的跨模态主题相关性建模方法,其特征在于具体步骤如下:(1)数据预处理:从多媒体数据集中采集不同模态的数据图像,得到图像和图像描述数据,整理图像标注数据集中不常出现或者无用的标注词;(2)提取多模态深度特征:利用深度学习方法来提取图像的视觉特征与图像描述的语义特征;具体来说,分别利用Region‑CNN模型和Skip‑gram模型来抽取图像的区域特征和文本的词汇特征;其中,Region‑CNN首先检测图像中有代表性的区域候选集,之后利用预训练的卷积神经网络来对抽取相应区域所对应的特征;Skip‑gram模型则是利用文本词汇与词汇之间的共现信息直接训练得到词汇的特征向量表示;(3)构建深度词袋模型:首先采用聚类算法K‑means将步骤(2)中所得到的图像区域特征和文本词汇特征进行聚类,得到限定维度的深度视觉词典和深度文本词典,进而将相应图像中所有的区域特征映射到相应的视觉词典,从而构建得到深度视觉词袋模型;相似地,所有的文本中的词汇也映射到文本词典得到深度文本词袋模型;(4)多模态主题生成:利用潜在狄利克雷模型的假设来模拟整个多模态数据集的生成过程,并且推导得到文本集合和图像集背后所隐藏的主题分布特征,充分利用词汇之间的共现信息;(5)融合跨模态主题相关性分析的关系主题模型建模:构建相应的关系主题模型,即在构建主题模型的同时考虑不同模态之间主题特征的相关性,将步骤(4)中得到的多模态主题特征作为初始值,同时利用图像和文本之间的关联信息来计算图像和文本之间的相关性,利用计算得到的相关性来更新多模态文档的主题信息,从而交叉迭代地进行相关性计算与主题分布更新进而构建得到最终的关系主题模型;(6)基于主题相关性的跨媒体信息检索:将得到的跨模态主题相关性应用到跨媒体信息检索中,分别是给定某种模态的查询,利用相关性计算得到与该查询最相关的其他模态的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610099438.9/,转载请声明来源钻瓜专利网。