[发明专利]基于多角度自注意力机制的图像-文本检索系统及方法在审

申请号：	201910134902.7	申请日：	2019-02-24
公开（公告）号：	CN109992686A	公开（公告）日：	2019-07-09
发明（设计）人：	张玥杰;李文杰;张涛	申请（专利权）人：	复旦大学
主分类号：	G06F16/53	分类号：	G06F16/53;G06F16/535;G06F16/33;G06N3/04
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	嵌入图像网络文本获取图像多模态文本检索系统注意力注意力机制空间映射神经网络双向循环训练模块多阶段卷积向量公共数据集单词特征关键区域检索技术嵌入空间区域特征模态单词句子学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于跨模态检索技术领域，具体为基于多角度自注意力机制的图像‑文本检索系统及方法。系统包括：深度卷积网络，双向循环神经网络，图像、文本自注意力网络，多模态空间映射网络，以及多阶段训练模块；深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量，双向循环神经网络用于获取单词特征在文本空间的嵌入向量，两者分别输入至图像、文本自注意力网络；图像、文本自注意力网络用于获取图像关键区域的嵌入表示和句子中关键单词的嵌入表示；多模态空间映射网络用于获取图像文本在多模态空间的嵌入表示；多阶段训练模块用于学习网络中的参数。本发明在公共数据集Flickr30k和MSCOCO上取得良好结果，性能有很大提升。

技术领域

本发明属于跨模态检索技术领域，具体涉及基于多角度自注意力机制的图像-文本检索系统及方法。

背景技术

在各种多模态信息处理任务中，图像和文本之间的跨模态分析与处理研究是众多研究方向里非常重要的一项。具体包括图像描述自动生成、及图文互搜等任务。这里重点关注跨模态检索，也就图文互搜任务。图文互搜就是输入一幅图像，需要找出与之语义最相似的K个句子。或者输入一个句子，找到与之语义最相关的K幅图像。图文互搜是一项非常具有挑战性的任务，因为其涉及到模式识别非常重要的两个分支研究领域，即计算机视觉和自然语言处理。从计算机视觉的角度看，图像描述的信息可涉及到中任何视觉内容如物体以及属性等或者图像中的完整场景，提取图像的特征一般采用卷积神经网络(ConvolutionalNeural Networks,CNN)，提取图像的特征一般采用卷积神经网络，如VGG、ResNet等，但提取的特征粒度比较粗。从自然语言处理角度来看，如何对句子进行编码以表示出语义特征也是一个具有挑战性的问题。传统方法多采用词袋模型来量化表示句子，这样处理的优点是简单直接，缺点是忽略句子中单词之间的顺序依赖信息。循环神经网络(Recurrent NeuralNetwork,RNN)是一种新型的神经网络方法，该方法通过循环网络可以学习到词与词之间的序列依赖信息，相比词袋模型信息量更多。RNN最后一个时刻的隐层输出可以作为句子特征表示，但属于粗粒度的句子特征表示。

图文检索模型一般分别对图像(如采用CNN)和文本(如采用RNN)进行编码，然后利用目标函数将图像空间和文本空间尽可能地融合。之后，即可通过向量内积来进行相似度的计算，一般使用Pairwise Ranking损失函数进行训练，即文本与匹配图像的相似度要比与不匹配图像的相似度高一个边缘，图像与匹配文本的相似度要比与不匹配文本的相似度高一个边缘。Faghri等人[5]又针对难例的优化进行改善，难例的优化在于让一幅图像与正样本文本的相似性比最不好区分的负样本文本之间的相似性大一个边缘，针对文本对应的正样本图像和负样本图像也是如此。

尽管现有工作在图像-文本检索任务上已取得不小突破，但总体而言，基于基础的CNN+RNN模型还处于一个“粗糙”的起始阶段，检索出来的图像(文本)和被查询文本(图像)还有一些差异，优化方法仍存在改善空间。

发明内容

本发明为克服现有CNN+RNN模型在图像-文本检索技术上所提取的特征不够细致、以及优化方法的缺陷，提供一种基于多阶段训练多角度自注意力机制的图像-文本检索系统及方法。

本发明提供的基于多阶段训练多角度自注意力机制的图像-文本检索系统，包括：深度卷积网络，双向循环神经网络，图像自注意力网络，文本自注意力网络，多模态空间映射网络，及多阶段训练模块；所述深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量，并输入至图像自注意力网络；所述双向循环神经网络用于获取单词特征在文本空间的嵌入向量，并输入至文本自注意力网络；所述图像自注意力网络用于获取图像关键区域的嵌入表示；所述文本自注意力网络用于获取句子中关键单词的嵌入表示；所述多模态空间映射网络用于获取图像文本的在多模态空间的嵌入表示；所述多阶段训练模块用于学习网络中的参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910134902.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种检索图片的方法及装置
下一篇：人脸数据的搜索方法、装置、电子设备及可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多角度自注意力机制的图像-文本检索系统及方法在审

专利文献下载