[发明专利]一种利用多层特征融合生成哈希码的方法及装置有效
申请号: | 202011533344.0 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112559810B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 马然;余海波;苏敏;安平 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06N3/04;G06N3/08 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 多层 特征 融合 生成 哈希码 方法 装置 | ||
本发明公开了一种利用多层特征融合生产哈希码的方法及装置,包括:建立图文对的相似度矩阵;通过不同残差块的输出来获取不同层的特征,将所述不同层的特征转换为通道数和尺寸一致的特征图,然后进行融合,最后通过全局池化和全连接并离散化得到图像对应的哈希码;用多尺度融合模块为每个文本生成对应的多尺度BOW模型,然后通过卷积层获得不同尺度的特征并进行融合,最后通过全连接层得到文本对应的哈希码;设计损失函数;训练模型;利用训练得到的模型,将样本输入其中获得对应的哈希码。通过本发明,生成的哈希码辨别性更强,用于跨模态检索时可以有效地提高检索的平均准确率。
技术领域
本发明涉及图像检索技术领域,特别涉及一种利用多层特征融合生成哈希码的方法及装置。
背景技术
随着网络的快速发展,越来越多的不同模态的数据出现在互联网上,比如图像、文本等。人们希望在各种形式的数据中找到自己所需要的信息,传统的单模态检索已经无法满足人们的需求,因此跨模态检索被提出。跨模态检索的目的是用来自其中一个模态(如图像)的查询,在另一个模态(如文本)中找到语义上相似的实例。然而,由于不同模态数据之间的异质性差异,以及低级特征和高级语义之间的语义鸿沟,使得不同模态数据之间的相似性度量非常具有挑战性。弥补这一差异的通常做法是将不同模态数据映射到一个公共子空间中,然后在公共空间中衡量它们之间的相似性。
其中基于哈希的跨模态检索通过一系列设计好的哈希函数,将不同模态的高维数据映射到一个低维的公共汉明空间中,学习到的哈希码保留了原始数据的语义信息。紧凑的哈希码相对于高维图像特征而言,所需的存储成本更小,同时可以通过位之间的异或运算来计算哈希码之间的汉明距离,极大地提高运算速度。传统的跨模态哈希算法是基于人工设计提取不同模态数据的特征,然后利用提取到的特征生成数据所对应的哈希码。特征提取和哈希学习是两个相对独立的过程,两个过程之间没有信息反馈,导致提取的特征和哈希学习之间不能很好地相适应,模型的性能会受限于手工特征的表达能力,使得检索系统在进行跨模态检索时容易产生语义鸿沟。
近年来,深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)在图像识别、目标检测等领域展现出了强大的特征提取能力,因此有些工作将DCNN与哈希算法相结合提出基于深度学习的模态哈希检索算法。其中一个具有代表性的工作是Jiang,Qingyuan,et al.Deep Cross-Modal Hashing.Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition workshops.2017.提出的深度跨模态哈希(Deep Cross-Modal Hashing,DCMH)方法,它利用DCNN提取图像和文本的特征,然后映射到一个公共的汉明空间中,通过预先设计好的损失函数将特征提取和哈希学习整合到一个可以端到端训练的框架中,相较于传统算法,该方法性能得到了很大的提升。Li,Chao,etal.Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognitionworkshops.2018.提出了自监督对抗跨模态哈希(Self-Supervised Adversarial HashingNetworks for Cross-Modal Retrieval,SSAH)方法,该方法将GAN网络引入跨模态哈希方法中,减小了来自不同模态数据之间的差异,建立更加精准的公共子空间。Cao,Yue,etal.Deep Visual-Semantic Hashing for Cross-Modal Retrieval.Proceedings ofthe ACM SIGKDD International Conference on Knowledge Discovery and DataMining.2016.提出了深度视觉语义哈希(Deep Visual-Semantic Hashing,DVSH)方法,该方法引入长短期记忆网络(Long Short Term Memory Networks,LSTM)来捕获图像和文本之间的内在联系。上述这些基于深度卷积深度网络学习的方法仅用深度卷积神经网络中某一层提取到的特征来表示不同模态的数据,所提取到的特征通常是网络中的高层特征,如Simonyan,Karen,and Andrew Zisserman.Very Deep Convolution Networks forLarge-Scale Image Recognition.International Conference on LearningRepresentations.2015.提出的VGG网络的fc8层的输出,然而高层特征大多编码语义特征,丢失了很多的空间信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011533344.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种牙齿矫正骨钉拧紧装置
- 下一篇:一种无针注射器