[发明专利]基于多角度自注意力机制的图像-文本检索系统及方法在审
申请号: | 201910134902.7 | 申请日: | 2019-02-24 |
公开(公告)号: | CN109992686A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 张玥杰;李文杰;张涛 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/535;G06F16/33;G06N3/04 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入 图像 网络 文本 获取图像 多模态 文本检索系统 注意力 注意力机制 空间映射 神经网络 双向循环 训练模块 多阶段 卷积 向量 公共数据集 单词特征 关键区域 检索技术 嵌入空间 区域特征 模态 单词 句子 学习 | ||
1.一种多角度自注意力机制的图像-文本检索系统,其特征在于,包括:深度卷积网络,双向循环神经网络,图像自注意力网络,文本自注意力网络,多模态空间映射网络,及多阶段训练模块;所述深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量,并输入至图像自注意力网络;所述双向循环神经网络用于获取单词特征在文本空间的嵌入向量,并输入至文本自注意力网络;所述图像自注意力网络用于获取图像关键区域的嵌入表示;所述文本自注意力网络用于获取句子中关键单词的嵌入表示;所述多模态空间映射网络用于获取图像文本的在多模态空间的嵌入表示;所述多阶段训练模块用于学习网络中的参数。
2.根据权利要求1所述的图像-文本检索系统,其特征在于,所述深度卷积网络采用152层ResNet;ResNet将所述图像表示为7x7x2048的特征映射,特征映射的计算公式为V=CNNEnc(Ii;θCNN),其中,θCNN是ResNet中包含的所有参数,Ii为输入图像,V={v1,v2,…,vR}为图像区域表示,为2048维,R(7x7)为区域的个数;
所述双向循环网络采用门控循环单元(GRU);双向循环网络将所述文本中每个单词表示为1024维向量,特征映射的计算公式为:U=GRUEnc(Ti;θGRU),其中,θGRU是双向循环网络中包含的所有参数,Ti为输入文本,U={u1,u2,…,uT}为单词表示,T为单词个数。
3.根据权利要求1所述的图像-文本检索系统,其特征在于,所述图像、文本自注意力网络,其输入分别为图像区域表示V和单词表示U;每个区域或单词的权重通过两层全连接以及softmax函数获得,即:
然后,对每个区域进行加权求和,获得每个角度的特征表示:
其中,m为角度数,v(i)和u(i)分别为第i个角度图像和文本的特征表示;V为图片区域特征表示,Pv,Qv,为其参数,Wv为求得的权重;与之对应,U为单词特征表示,Pu,Qu,为其参数,Wu为求得的权重。
4.根据权利要求1所述的图像-文本检索系统,其特征在于,所述多模态映射网络把图像特征和文本特征映射到多模态空间中,其计算公式为:
v=L2norm(Fv[v(0);v(1);…;v(m)]+bv)
u=L2norm(Fu[u(0);u(1);…;u(m)]+bu)
其中,Fv和Fu为映射矩阵,bv和bu为偏置权重,v和u分别为多模态空间图像与文本的嵌入表示。
5.根据权利要求1所述的图像-文本检索系统,其特征在于,所述多阶段训练模块,其中,先采用第一阶段损失函数训练,然后采用第二阶段损失函数进行训练,最后以一个较小的学习率联合所有模块包括ResNet网络进行微调;
第一阶段损失函数为:
第二阶段损失函数为:
其中,I为单位向量,S为图片与文本的相似矩阵,对角线上的元素即为匹配的图像文本对的相似性,非对角线上的元素为不匹配的图像文本对的相似性,相似性的计算为图片特征表示v和文本特征表示u的余弦相似性,即为s(v,u)=vTu,[x]+≡max(x,0)。
6.一种基于权利要求1-5之一所述图像-文本检索系统的图像-文本检索方法,其特征在于,具体步骤为:
步骤一、由深度卷积网络获取图像区域在嵌入空间中的嵌入向量,并输出至图像自注意力网络中;
由双向循环网络获取文本单词在嵌入空间中的嵌入向量,并输出至文本自注意力网络中;
步骤二、由图像、文本多角度自注意力网络,提取图像、文本中关键区域的表示和关键单词的表示;
步骤三、由多模态空间映射网络把图像文本映射至一个多模态空间中;
步骤四、由多阶段训练模块,采用不同的损失函数进行参数学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910134902.7/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序