[发明专利]基于维度分析量化器哈希学习的数据检索方法有效
申请号: | 202011107446.6 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112241475B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 曹媛;陈娜;桂杰;许晓伟 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 青岛海昊知识产权事务所有限公司 37201 | 代理人: | 刘艳青 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 维度 分析 量化 器哈希 学习 数据 检索 方法 | ||
一种基于维度分析量化器哈希学习的数据检索方法,该方法包括:获取待分析数据,提取相应特征向量;基于哈希算法对得到的特征向量进行投影;对得到的投影维度进行重要性分析,选取更具信息性的子集;使用量化器将选定的更具信息性的子集划分为几个区域,每个区域都使用对应代码本进行量化;通过得到量化结果实现数据检索,输出。利用本发明进行数据搜索的精度更高,本发明提供的DAQ方法在各个方面的性能与其他量化方法相比都更为优越。
技术领域
本发明涉及一种数据检索方法,属于深度学习和数据分析技术领域。
背景技术
近些年大数据时代迅速的兴起,近似最近邻搜索成了许多应用程序(例如大规模图像检索)中的基本问题,关于近似最近邻搜索问题,早期研究集中于使用空间分区和递归超平面分解来构建新的数据结构,其中包括k-d树,度量树,覆盖树以及其他相关结构。但是,在处理高维数据时,这些基于树的方法的时间性能下降为线性扫描。近几年的研究工作主要集中在学习哈希码以进行有效的相似度搜索。
随着深度学习的飞速发展,已经提出了许多深度哈希方法。Xia等人提出了卷积神经网络哈希(CNNH),首先从成对相似性矩阵分解中学习近似哈希码,然后利用原始图像像素同时学习图像特征和哈希函数。Jiang等人提出了深度成对监督散列(DPSH),利用成对标签为应用程序执行同时特征学习和哈希码学习;Jiang等人还提出了深度离散监督哈希算法(DDSH),它可以利用成对监督信息直接指导离散编码过程和深度特征学习过程,从而增强这两个重要过程之间的反馈。
大多数哈希方法都使用SBQ生成哈希码,并通过汉明距离评估两个哈希码之间的相似性。但是,SBQ的一个问题是阈值通常位于最高点密度的区域,因此许多接近阈值的邻近点将被量化为完全不同的哈希码,这依据哈希原理是不合理的。因此,Liu等人提出了一种层次哈希算法(HH),通过使用三个阈值将投影维度的前一半全部划分为四个区域,并用两个哈希位对每个区域进行量化,来解决该问题。然而,最远区域中的两点之间的汉明距离与附近区域中的两点之间的汉明距离相同(例如,{00,01,11,10}),这显然是不合理的。Liu等人提出了一种新颖的量化策略,称为双比特量化(DBQ),以有效地保留数据之间的相邻结构。DBQ的基本思想是将所有前半部分投影维划分为三个具有两个自适应学习阈值的区域,并使用双哈希位(例如{01,00,10})对每个区域进行量化。DBQ是解决SBQ和HH里问题的好方法,而且性能明显优于它们。为了进一步提高搜索准确性,有人提出了曼哈顿哈希(MH)来用自然二进制代码(NBC)的多个位(例如{0,1,2,3})对所有第一个多个投影维进行量化,通过计算两个哈希码之间的曼哈顿距离进行相似性搜索。由于MH可以有效保留数据之间的邻域结构,因此MH的性能明显优于SBQ,HH和DBQ。
但是,上述方法忽略了由投影数据提供的原始数据,无法充分学习携带更多信息的实值代表值,且忽略了投影数据的分布,只是通过样本均来近似的表示特征,难以实现高精度的搜索。
发明内容
本发明的目的是提供一种基于维度分析量化器哈希学习的数据检索方法,以弥补现有技术的不足。
由于损失函数的复杂优化问题难以解决,因此大多数哈希方法将哈希码学习问题分解为两个步骤:投影和量化。在量化步骤中,二进制代码被广泛使用,因为按汉明距离进行排序非常高效;但是,在需要高搜索精度的应用(例如图像检索)中,应减少量化步骤产生的大量信息丢失。由于许多两步哈希方法在投影步骤中会产生不均匀的投影维度。然而现有的量化算法中一部分根本没有考虑投影数据的分布情况,另一部分认为第一个投影维度更重要但是并没有提供详细的重要性分析,因而现有的量化算法并没有很好的利用投影维度里的有效信息。
基于此,本发明采取的具体技术方案如下:
一种基于维度分析量化器哈希学习的数据检索方法,该方法包括以下步骤:
S1:获取待分析数据,提取相应特征向量;
S2:基于哈希算法对S1得到的特征向量进行投影;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107446.6/2.html,转载请声明来源钻瓜专利网。