[发明专利]基于柯西分布哈希方法的高维数据检索方法与系统有效
申请号: | 201711353318.8 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107992611B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 王建民;龙明盛;刘斌;曹越 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 方法 数据 检索 系统 | ||
1.一种高维数据检索方法,其特征在于,包括:
S1、将待检索的数据点对应的高维数据输入训练好的相似检索模型中,获取所述待检索的数据点对应的哈希编码,其中,所述相似检索模型为神经网络模型且包括哈希编码模块;
S2、将所述哈希编码输入所述相似检索模型的倒排索引单元中,获取与所述哈希编码的汉明距离小于或者等于预设值的桶;
S3、对所述桶中的所有高维数据进行重排序,获取相似高维数据列表,将所述相似高维数据列表作为检索结果;
步骤S1中所述训练好的相似检索模型通过如下步骤获取:
从训练集中获取多个未使用的高维数据;
将所述多个未使用的高维数据输入所述哈希编码模块,获取对哈希编码更匹配的低维特征向量;
基于所述低维特征向量,获取所述低维特征向量对应的哈希编码,并根据所述低维特征向量对应的哈希编码计算设定损失函数对所述相似检索模型的哈希编码层的梯度;
基于所述对所述相似检索模型的哈希编码层的梯度,对所述相似检索模型进行训练,获取所述训练好的相似检索模型;
所述设定损失函数为:
其中,O为设定损失函数,L为柯西交叉熵损失函数,为定义,Q为柯西量化损失函数,λ为调节柯西交叉熵损失和柯西量化损失权重的参数;
所述设定损失函数由所述柯西交叉熵损失函数和所述柯西量化损失函数线性组合获取;
所述柯西交叉熵损失函数通过下式表示:
其中,L为所述柯西交叉熵损失函数,S为相似矩阵,sij为相似矩阵中的i排j列的元素,0≤i≤N,0≤j≤N,N为低维特征向量的总个数,wij为i排j列的元素的权重,zi为第i个低维特征向量,zj为第j个低维特征向量,d(zi,zj)为zi,zj之间的归一化欧几里德距离,γ为柯西分布的缩放参数;
所述zi,zj之间归一化欧几里德距离通过下式获取:
其中,d(zi,zj)为zi,zj之间的归一化欧几里德距离,zi为第i个低维特征向量,zj为第j个低维特征向量,K为哈希编码的位数,||.||为向量的欧几里得范数;
所述柯西量化损失函数通过下式表示:
其中,Q为所述柯西量化损失函数,0≤i≤N,N为训练数据的个数,zi为第i个低维特征向量,d(|zi|,1)为|zi|,1之间的归一化欧几里德距离,γ为柯西分布的缩放参数。
2.根据权利要求1所述的检索方法,其特征在于,所述相似矩阵为N×N的矩阵,N为训练集中的数据点总量,矩阵中的元素为0或者1;
对于矩阵中的任一个元素sij,sij=1代表数据点xi与数据点xj相似,sij=0代表数据点xi与数据点xj不相似;
其中,sij为相似矩阵中的i排j列的元素,xi为训练集中的第i个数据点,xj为训练集中的第j个数据点,0≤i≤N,0≤j≤N。
3.根据权利要求1所述的检索方法,其特征在于,步骤S1进一步包括:
S11、将数据库的所有数据点对应的高维数据输入训练好的相似检索模型中,获取所述数据库的所有数据点对应的高维数据所对应的哈希编码;
S12、基于所述所有数据点对应的高维数据所对应的哈希编码,获取所述数据库的所有数据点的倒排索引;
S13、基于所述数据库的所有数据点的倒排索引,获取所述待检索的数据点对应的高维数据,并获取所述高维数据对应的哈希编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711353318.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超薄款一体机
- 下一篇:一种带支撑装置的笔记本电脑A壳
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置