[发明专利]一种基于深度哈希的通用跨模态检索模型在审
申请号: | 202110526554.5 | 申请日: | 2021-05-14 |
公开(公告)号: | CN113076465A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 段友祥;陈宁;孙歧峰 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 通用 跨模态 检索 模型 | ||
1.一种基于深度哈希的通用跨模态检索模型,其特征在于,所述框架包括图像模型、文本模型、二进制码转换模型、汉明空间,其中:
1)图像模型,用于对输入的图像数据进行特征及语义的提取;
2)文本模型,用于对输入的文本数据进行特征及语义的提取;
3)二进制码转换模型,负责将原始特征空间中的数据点映射为公共汉明空间中的二进制编码;
4)汉明空间,为图像模型与文本模型的特征空间的公共子空间,在其中可以通过计算待查询数据的哈希编码和原始数据编码之间的汉明距离进行相似度排序,从而得到跨模态检索结果。
2.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:由于卷积神经网络(Convolutional Neural Networks,CNN)可以保留邻域的联系和空间的局部特点,且对于局部操作有很强的抽象表征能力;且可以利用图像的二维结构和相邻像素之间的高度相关性,引入池化操作在一定程度上保证了图像的平移不变性,使得模型不受位置变化的影响;池化操作同样使得网络拥有更大的感受野,使得网络在更深层学习到更加抽象的特征表示。因此,图像模型通常采用卷积神经网络进行特征及语义的提取。而对于图像数据特征的抽象表征以及提取能力,往往是性能评价的一个重要指标,因此图像模型可以使用在ImageNet数据集上经过预训练的残差网络ResNet、SeNet、DenseNet、GCN等在图像特征提取、图像分类方面表现出绝佳性能的CNN模型。
3.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:文本模型先采用Bow模型或者Word2Vec模型将文本数据转换为向量形式。对文本向量的特征及语义提取,通常采用循环神经网络(Recurrent Neural Network,RNN),RNN是处理具有时序关系的数据相关任务最成功的多层神经网络模型,样本出现的时间顺序对于自然语言处理来说非常重要,针对其他网络无法对时间序列上的变化进行建模的问题,RNN给予了很好的解决。很多现有模型对文本模态仅使用全连接层提取特征,忽略了文本的上下文信息以及丰富的语义信息,因此文本模型中使用RNN进行特征提取表征。其中,尤其是近些年在自然语言处理表现出卓越性能的LSTM和Transformer是我们可以优先考虑的模型选择。
4.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:二进制码转换模型通常采用多层全连接层将图像和文本特征映射为特定位数的二进制哈希码,其中二进制码位数取决于最后的全连接层的节点数。如最后一层全连接层采用16、32、64个节点,则最终转换的二进制码位数为16、32、64位。
5.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于所述框架的数学定义为:
为了清晰起见,以X与Y表示图像与文本模态。训练数据定义为D={X,Y},其中这里的n表示训练样本实例的数据量,xi表示来自X模态的第i个样本实例的特征向量。同样地,定义其中yj表示来自Y模态的第j个样本实例的特征向量。由于不同模态的数据的特征向量与xi与yj位于不同的特征表示空间,并且通常具有不同的统计属性,因此它们不能直接进行比较。因此针对每种模态学习一个转换函数:对于X模态,对于Y模态,其中,d为汉明空间的维度,γX与γY为两个模态数据的训练的参数。转换函数将来自不同特征空间的数据xi与yj映射成为汉明空间中的特征向量ui与vj。使得来自不同模态的数据可以直接进行比较,并且在汉明空间中,相同类别的样本相似度大于不同类别的样本的相似度。
该框架目标是计算跨模态数据的相似性,从而进行跨模态检索。例如,针对来自X模态的数据xa,利用上述转换函数将其映射到汉明空间计算其与汉明空间中所有Y模态数据vj的相似度dj=sim(ua,vj),将相似度进行排序,最终得到Y模态中与xa相关联的数据的检索结果。
6.如权利要求4所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:二进制码转换模型需保证二进制码尽可能保留原特征空间中的近邻相似性,即原空间中相邻的两个点被映射到汉明空间中时也应该具有相似性。因此,该模型的训练要保证上述保留相似性原则,常用的损失函数有对比损失(Contrastive Loss)和三元组损失(Triplet Loss)等,损失函数分别如下,用于监督二进制码的生成过程:
1)对比损失
其中,d=||ui-vj||2代表两个样本特征之间的欧氏距离;y为两个样本是否匹配的标签,若两个模态数据xi与yj之间存在语义关联,则y=1,反之,y=0;margin为设定的阈值。
2)三元组损失
其中||*||为欧式距离,表示的是Positive和Anchor之间的欧式距离,表示的是Negative和Anchor之间的欧式距离;α表示Positive和Anchor之间距离和Negative和Anchor之间距离之间的最小间隔;+表示[]内值大于0时,取值为损失,否则,损失为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110526554.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电能表停电上报的方法
- 下一篇:一种适用于单桨无人测量船的减摇装置