[发明专利]一种基于自监督的跨模态深度哈希检索方法有效
申请号: | 201910599265.0 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110309331B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 王轩;漆舒汉;李逸凡;蒋琳;廖清;刘洋;夏文;李化乐;吴宇琳;贾丰玮 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/583;G06F16/31;G06F16/33;G06K9/62 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 黎健任 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 跨模态 深度 检索 方法 | ||
1.一种基于自监督的跨模态联合哈希检索方法,该方法包括以下步骤:
步骤1:针对图像模态数据进行处理:采用深度卷积神经网络对图像模态的数据进行特征提取,对图片数据进行哈希学习,将深度卷积神经网络的最后一层全连接层的节点个数设置为哈希码的长度;
步骤2:针对文本模态数据进行处理:使用词袋模型对文本数据进行建模,建立一个两层的全连接神经网络对文本模态的数据进行特征提取,神经网络的输入是使用词袋模型表示的词向量,第一个全连接层节点的数据与第二个全连接层节点的数据与哈希码的长度相同;
步骤3:针对类别标签处理的神经网络:采用自监督的训练方式从标签数据中提取语义特征;
步骤4:最小化图像与文本网络所提取的特征与标签网络的语义特征间的距离,使得图像与文本网络的哈希模型能够更充分学习不同模态间的语义特征;
其中,使用形为f(x)=||x|-1|的二值约束项来作为生成哈希码时的量化误差,二值约束项的量化损失为
Lq=||Bx|-1|+||By|-1|
其中,Bx和By分别代表了图像模态与文本模态的数据的近似哈希码。
2.根据权利要求1所述的方法,其特征在于,图像模态间损失函数如下:
其中D(·)表示对两个哈希码距离的度量,sij表示两张图片是否相似,若sij=1则两张图片相似;sij=0则两张图片不相似,该损失函数的第一项是为了惩罚相似的图片被映射到不相似的二值哈希码的情况,第二项是为了惩罚不相似的图片被映射到相似的二值哈希码的情况,其中m为阈值,表示不相似的两张图片的哈希码之间的距离不会小于m;和分别表示两张图像生成的哈希码。
3.根据权利要求2所述的方法,其特征在于,文本模态间的损失函数如下:
其中D(·)表示两个哈希码之间距离的度量,sij表示两段文本是否相似,若sij=1则两段文本相似;sij=0则两段文本不相似,第二项是为了惩罚相似的文本被映射到不相似的二值哈希码的情况或不相似的文本被映射到相似的二值哈希码的情况,m同样是阈值,分别表示两段文本生成的哈希码。
4.根据权利要求3所述的方法,其特征在于,类别标签神经网络的损失函数如下:
其中和分别表示语义标签网络提取的语义特征和图像与文本网络分别提取的特征,sij表示两个标签是否相似,若sij=1则两个标签相似;sij=0则两个标签不相似,通过最小化该损失函数,使得图像模态和文本模态的特征分布在标签的语义特征指导下趋于一致。
5.根据权利要求1-4任一项所述的方法,其特征在于,该类别标签神经网络中采用的第一层为卷积层,其卷积核大小为1x24,即为类别标签数,同时步长为1,不对边缘像素补边,并采用局部相应归一化操作,而第二个卷积层采用1x1的卷积核,其效果类似于全连接层,且步长为1,不对边缘像素补边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910599265.0/1.html,转载请声明来源钻瓜专利网。