[发明专利]一种基于张量融合和重排序的跨模态图文互搜方法有效
申请号: | 201910661723.9 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110442741B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 杨阳;汪政;徐行;王谭 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 融合 排序 跨模态 图文 方法 | ||
本发明公开了一种基于张量融合和重排序的跨模态图文互搜方法,首先构建一个基于张量融合构建跨模态图文互搜模型,采用基于整体特征(global feature)的张量融合对特征向量以及特征向量分别进行融合。本发明不再依靠对图片文本的细微特征匹配来达到整体的配对,而是直接在图片和文本整体之间利用基于张量的特征融合来实现两个模态之间的鸿沟跨越。同时,在检索阶段,现有方法利用训练好的模型在数据库中直接进行跨模态的检索。但我在这种情况下很多信息没有得到充分利用,本发明在检索阶段提出了一个跨模态的重排序方法,将图片文本在模型训练阶段的信息充分利用起来,无需额外花费时间就可以实现效果的提升,兼顾准确性和匹配速度。
技术领域
本发明属于图文互搜技术领域,更为具体地讲,涉及一种基于张量融合和重排序的跨模态图文互搜方法。
背景技术
针对图片文本匹配以及跨模态的图文互搜,目前常用的有两类方法:一种是直接预测的方法,即把图片和文本两种特征经过线性融合成一个特征向量后直接判断一张图片和一个句子是否互相匹配,相当于把图文互搜问题转化为了一种二分类的问题;另一种是子空间嵌入方法,即构建一个独立于两个模态之外的共同子空间,将两种模态的信息各自投影到子空间中进而进行相互的相似度的度量。
直接预测的方法在早期使用很多,是一种非常直接的方法,但是由于图片和文本两种模态之间存在着非常巨大的语义鸿沟,这种方法很难适用于所有的图片文本对,效果比较差。
子空间嵌入法因为相比于直接预测的方法有更好的匹配效果而在近几年被广泛运用。但是为每个图片和文本建立一个共同的子空间明显太难了,即使建立了这样一个子空间,在这样一个高维空间里简单的使用距离度量,例如cosine距离或者马氏距离不一定能很好的反映每个点之间的相似程度。同时,正因为空间建立的复杂性,优化训练和迭代也显得更加困难,反映在其对于参数的设置非常敏感,训练费时费力。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于张量融合和重排序的跨模态图文互搜方法,以更加高效的方法来实现图文互搜,同时兼顾准确性和匹配速度。
为实现上述发明目的,本发明基于张量融合和重排序的跨模态图文互搜方法,其特征在于,包括以下步骤:
(1)、基于张量融合构建跨模态图文互搜模型
所述跨模态图文互搜模型包括:
一图片特征提取层,用于提取输入的图片的特征,形成图片特征向量v;
第一文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t;
第二文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t′;
三个特征映射层,分别将图片特征向量v、文本特征向量t、文本特征向量t′映射到一个新的共用的特征空间,得到特征向量以及
第一组R个张量融合模块,每个张量融合模块均对特征向量进行点乘操作,得到R个融合向量,然后用加法器将R个融合向量相加,得到图片-文本融合向量f;
第二组R个张量融合模块,每个张量融合模块均对特征向量进行点乘操作,得到R个融合向量,然后用加法器将R个融合向量相加,得到文本-文本融合向量f′;
第一相似度预测模块,针对图片-文本融合向量f进行直接预测,得到图片-文本相似度SIT;
第二相似度预测模块,针对文本-文本融合向量f′进行直接预测,得到文本-文本相似度STT;
(2)、训练跨模态图文互搜模型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910661723.9/2.html,转载请声明来源钻瓜专利网。