[发明专利]一种基于深度自监督排序哈希的跨模态检索方法有效
申请号: | 202010001846.2 | 申请日: | 2020-01-02 |
公开(公告)号: | CN113064959B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 荆晓远;钱金星;吴飞;董西伟 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/953;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 监督 排序 跨模态 检索 方法 | ||
1.一种基于深度自监督排序哈希的跨模态检索方法,其特点在于,包括以下步骤:
(1)获取训练数据集,其中每个样本都包括文本、图像和标签,使用的基准多模态数据集分别是Wiki,MIRFlickr和NUS-WIDE;
(2)利用标签信息训练标签网络;
(2.1)利用一个4层的全连接网络,该全连接网络的输入层是实例的标签,第二层具有4096个节点,使用Relu激活函数并进行局部归一化;第三层具有512个节点,然后用Relu激活函数;第四层具有K*L+c个节点,K与编码函数有关,L为哈希码的长度,c为标签的维度;
(2.2)第i个实例,使用三元组(vi,ti,li)来表示,li作为vi和ti的自监督语义信息,在标签网络中,语义特征通过非线性变化投影为对应的哈希码,标签网络的损失函数为:
其中,θl是标签网络的参数,Fl是标签网络学习到的语义特征,Hl是标签网络预测出的哈希码特征,是标签网络预测出的标签,α,β和γ是超参;
(3)通过标签网络的语义特征指导图像网络进行特征学习;
(3.1)利用一个9层的神经网络,其中前5层是卷积神经网络,分别是第一层用64个大小为11*11的卷积核,步长是4,0边距,然后用Relu激活函数,之后进行局部归一化,最后使用传统的2*2大小的模板做max pooling,第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,之后局部归一化,最后2*2大小的max pooling;第三层、第四层和第五层相互连接,没有中间的池化层或归一化层;第三和四层,用256个3*3的卷积核,步长是1,padding是1,使用Relu激活函数;第五层用256个3*3的卷积核,步长是1,padding是1;使用2*2大小的max pooling,得到了尺寸为6×6×256的输出特征;
(3.2)第6层和第7层都是全连接层,有4096个神经元,激活函数用Relu;第8层和第9层也是全连接层,分别具有512、K*L+c个节点,图像网络的目的是在语义特征的指导下学习图像特征及保持对应哈希码之间的相似关系,图像网络的损失函数为:
其中,θv是标签网络的参数,Fv是图像网络学习到的特征,Hv是图像网络预测出的哈希码特征,是图像网络预测出的标签,α,β和γ是超参;
(4)通过标签网络的语义特征指导文本网络进行特征学习;
(4.1)采用一种多尺度融合模型,该模型由多个平均池化层和一个1×1的卷积层组成,多个平均池化层用于提取文本数据的多个比例特征;
(4.2)使用1×1卷积层融合多个特征,在多尺度融合模型后连接一个卷积层,该卷积层将多尺度融合模型的输出投影为4096×1的文本特征;
(4.3)最后连接两层全连接网络,分别具有512、K*L+c个节点;文本网络的损失函数为:
其中,θt是标签网络的参数,Ft是文本网络学习到的特征,Ht是文本网络预测出的哈希码特征,是文本网络预测出的标签,α,β和γ是超参;
(5)根据设定的损失函数训练标签网络、图像网络和文本网络;
(6)使用基于排序的哈希函数进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010001846.2/1.html,转载请声明来源钻瓜专利网。