[发明专利]一种跨模态检索方法及系统有效
申请号: | 201811008853.4 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109189968B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 曹文明;林秋斌 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/58;G06F16/33;G06K9/62 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 袁文英 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 检索 方法 系统 | ||
本发明适用于检索技术领域,提供了跨模态检索方法,包括采用堆叠式受限玻尔兹曼机和多模态深度置信网络提取图像和文本各自的模态友好型特征和模态相互型特征,模态友好型特征能够使所获得的特征之间的统计特性方面与输入的更相似,模态相互型特征能够得到在原始输入实例中丢失的相互信息,将两种特征进行融合得到混合特征,通过多个双模态自动编码获得最后的共享特征。本发明实施例利用堆叠式的受限玻尔兹曼机提取各个模态的内部特征,采用深度置信网络挖掘模态之间丢失的相互信息,将两种特征进行融合,构造出适合进行跨模态检索的混合特征,利用多层双模态的自动编码网络挖掘跨模态的复杂信息,有效提高了跨模态检索任务的准确性和检索的速度。
技术领域
本发明属于检索技术领域,尤其涉及一种跨模态检索方法及系统。
背景技术
跨模态检索是一种新型的检索方法,其能够检索多模态数据。例如,输入图像,在文本数据库中检索对应的文本;给定文本,在图像数据库中找到相应的图像。
当前,基于深度神经网络的跨模态检索方法主要包含两个步骤:(1)提取各个模态的内部特征以及模态之间的特征;(2)在两个模态之间建立各自的共享特征。但是,在第一步骤中,往往丢失了模态之间的相互信息;在第二步骤中,目前的方法使用的都是比较浅层的网络,难以挖掘跨模态的复杂信息。
发明内容
本发明所要解决的技术问题在于提供一种跨模态检索方法及系统,旨在解决现有技术在进行跨模态检索时丢失模态之间的相互关系,难以挖掘跨模态的复杂信息的问题。
本发明是这样实现的,一种跨模态检索方法,包括:
分别对图像和文本进行预处理,得到图像特征和文本特征;
根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征,及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征;
利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合,得到所述图像的混合特征,及将所述文本的模态友好型特征和模态相互型特征结合,得到所述文本的混合特征;
采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系,得到所述图像和所述文本的共享特征;
根据所述共享特征进行跨模态检索。
进一步地,对图像进行预处理,得到图像特征的步骤包括:
采用VGGNet模型提取所述图像FC7层的卷积特征。
进一步地,对文本进行预处理,得到文本特征的步骤包括:
采用bag of words模型提取所述文本1000维的文本特征。
进一步地,所述堆叠式的受限玻尔兹曼机包括三层受限玻尔兹曼机,根据所述图像特征和所述文本特征,利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征包括:
利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取所述图像特征和所述文本特征;
利用简单的受限玻尔兹曼机移除所述图像特征和所述文本特征各自模态的特性,以获得高层次的语义特征;
完成堆叠式的受限玻尔兹曼机的训练,得到所述图像的模态友好型特征和所述文本的模态友好型特征
进一步地,根据所述图像特征和所述文本特征,利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征包括:
分别采用所述图像和所述文本的深度置信网络提取各自模态的特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811008853.4/2.html,转载请声明来源钻瓜专利网。