[发明专利]基于维度分析量化器哈希学习的数据检索方法有效
申请号: | 202011107446.6 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112241475B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 曹媛;陈娜;桂杰;许晓伟 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 青岛海昊知识产权事务所有限公司 37201 | 代理人: | 刘艳青 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 维度 分析 量化 器哈希 学习 数据 检索 方法 | ||
1.一种基于维度分析量化器哈希学习的数据检索方法,其特征在于,该方法包括以下步骤:
S1:获取待分析数据,提取相应特征向量;
S2:基于哈希算法对S1得到的特征向量进行投影;
S3:对S2得到的投影维度进行重要性分析,选取更具信息性的子集;所述S3中选取更具信息性的子集具体为:
将投影维度数用M表示,用于量化每个选定的投影维的哈希位数用S表示,要量化总共有K个哈希位的投影点,则S*M=K,通过观察不同M产生的性能并选择最佳M来确定M的值,Λ=diag(λ1,...,λK)表示K个投影维度的区分度,假设{λ1,...,λK}已按降序排序,再计算M,以便M个选定的投影维度可以覆盖至少98%的总信息量,此外,K必须可被M整除;
S4:使用量化器将S3选定的更具信息性的子集划分为几个区域,每个区域都使用对应代码本进行量化;
S5:通过S4得到量化结果实现数据检索,输出。
2.如权利要求1所述的数据检索方法,其特征在于,所述S3中投影维度重要性分析具体为:
将投影数据矩阵表示为G=P X∈RK×N,其中投影矩阵表示整个投影过程,IA的第一步是生成集中矩阵U:
其中,gki和uki分别表示G和U的第k行和第i列中的元素;因此,表示第k个投影维度的方差,将协方差矩阵C∈RK×K计算为:
其中UT是矩阵U的转置,C的第k个对角元素是第k个投影维度的方差:将C对角化为对角矩阵Λ;因为C是一个实对称矩阵,所以将C对角化的过程表示为ECET=Λ,其中E∈RK*K,E中的第k列是对应于特征值λk的特征向量;K个特征值构成Λ的对角元素:Λ=diag(λ1,λ2,...,λK);λk表示在k个投影维度彼此独立的情况下的第k个投影维度的方差,因为在Λ中所有非对角元素均为零;将λk定义为第k个投影维度的区分度。
3.如权利要求1所述的数据检索方法,其特征在于,计算M的详细步骤:整个信息量Δ的计算公式为:
然后,使选定的r个投影维度至少覆盖整个信息量的98%的第一个折点计算为:
其中包含所有断点,这些断点使b选定的投影维度至少覆盖整个信息量的98%;由于K必须可以被M整除,因此首先计算Num,其中包含M的所有可能值:
Num={in|K mod in=0,in∈In}
其中In={1,...,K},计算M包含了在Num中找到最接近r的数:
其中num∈Num和|·|表示绝对值。
4.如权利要求1所述的数据检索方法,其特征在于,所述S4具体操作如下:
S4-1:使用量化器划分区域并将分区量化
关于第k个投影维度,由于S个哈希位可以编码2S不同区域,需要分别学习(2S-1)个阈值和2S个码本第k个投影维的量化步长定义为:
要学习最优和需要使同一区域中的点彼此之间的相似度高于不同区域中的点;
S4-2:提出一个目标函数,以最小化第k个投影维度的平方失真误差:
其中E表示平方失真误差的数学期望;该目标函数通过针对固定ck优化tk和固定tk优化ck的迭代过程实现全局最优;即固定阈值,更新码本以最小化目标函数中的平方失真误差;固定码本,阈值通过计算两个相邻码本的平均值来更新。
5.权利要求1所述的数据检索方法能够应用于图像检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107446.6/1.html,转载请声明来源钻瓜专利网。