[发明专利]一种基于张量融合和重排序的跨模态图文互搜方法有效

专利信息
申请号: 201910661723.9 申请日: 2019-07-22
公开(公告)号: CN110442741B 公开(公告)日: 2022-10-18
发明(设计)人: 杨阳;汪政;徐行;王谭 申请(专利权)人: 成都澳海川科技有限公司
主分类号: G06F16/583 分类号: G06F16/583
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平
地址: 611731 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于张量融合和重排序的跨模态图文互搜方法,首先构建一个基于张量融合构建跨模态图文互搜模型,采用基于整体特征(global feature)的张量融合对特征向量以及特征向量分别进行融合。本发明不再依靠对图片文本的细微特征匹配来达到整体的配对,而是直接在图片和文本整体之间利用基于张量的特征融合来实现两个模态之间的鸿沟跨越。同时,在检索阶段,现有方法利用训练好的模型在数据库中直接进行跨模态的检索。但我在这种情况下很多信息没有得到充分利用,本发明在检索阶段提出了一个跨模态的重排序方法,将图片文本在模型训练阶段的信息充分利用起来,无需额外花费时间就可以实现效果的提升,兼顾准确性和匹配速度。
搜索关键词: 一种 基于 张量 融合 排序 跨模态 图文 方法
【主权项】:
1.一种基于张量融合和重排序的跨模态图文互搜方法,其特征在于,包括以下步骤:(1)、基于张量融合构建跨模态图文互搜模型所述跨模态图文互搜模型包括:一图片特征提取层,用于提取输入的图片的特征,形成图片特征向量v;第一文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t;第二文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t';三个特征映射层,分别将图片特征向量v、文本特征向量t、文本特征向量t'映射到一个新的共用的特征空间,得到特征向量以及第一组R个张量模块,每个张量融合模块均对特征向量进行点乘操作,得到R个融合向量,然后用加法器将R个融合向量相加,得到图片‑文本融合向量f;第二组R个张量融合模块,每个张量融合模块均对特征向量进行点乘操作,得到R个融合向量,然后用加法将R个融合向量相加,得到文本‑文本融合向量f';第一相似度预测模块,针对图片‑文本融合向量f进行直接预测,得到图片‑文本相似度SIT;第二相似度预测模块,针对文本‑文本融合向量f'进行直接预测,得到文本‑文本相似度STT';(2)、训练跨模态图文互搜模型将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中,其中,图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层,以输出图片‑文本相似度SIT、文本‑文本相似度STT'均为1对构建的跨模态图文互搜模型进行训练,得到训练好的跨模态图文互搜模型;(3)、跨模态重排序的图文互搜3.1)、图片到文本检索将需要检索的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片‑文本相似度SIT,选择图片‑文本相似度SIT最大的n个描述图片的文本作为检索到的文本,并按图片‑文本相似度SIT的大小进行检索优先级排序;将每一检索到的文本与数据库中的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片‑文本相似度SIT,选择图片‑文本相似度SIT最大的图片,如果该图片为需要检索的图片,则保留该检索到的文本,否则,该检索到的文本从排序中取出;将所有被取出的检索到的文本按照图片‑文本相似度SIT的大小排序到保留的检索到的文本检索优先级排序之后,再选择排在前n1个检索到的文本作为最终的文本检索结果;3.2)、文本到图片检索将需要检索的文本与数据库中的的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片‑文本相似度SIT,选择图片‑文本相似度SIT最大的m张图片作为检索到的图片,并按图片‑文本相似度SIT的大小进行检索优先级排序;将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片‑文本相似度SIT,选择图片‑文本相似度SIT最大的描述图片的文本,如果该文本为需要检索的文本,则保留该检索到的图片,如果不是,则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层,经过训练好的跨模态图文互搜模型得到文本‑文本相似度STT',如果文本‑文本相似度STT'大于设定的阈值,则保留该检索到的图片,否则,该检索到的图片从排序中取出;将所有被取出的检索到的图片按照图片‑文本相似度SIT的大小排序到保留的检索到的图片检索优先级排序之后,再选择排在前m1个检索到的图片作为最终的图片检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910661723.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top