[发明专利]基于柯西分布哈希方法的高维数据检索方法与系统有效

专利信息
申请号: 201711353318.8 申请日: 2017-12-15
公开(公告)号: CN107992611B 公开(公告)日: 2018-12-28
发明(设计)人: 王建民;龙明盛;刘斌;曹越 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;吴欢燕
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于柯西分布哈希方法的高维数据检索方法与系统,检索方法包括:S1、将待检索的数据点对应的高维数据输入训练好的相似检索模型中,获取待检索的数据点对应的哈希编码,其中,相似检索模型为神经网络模型且包括哈希编码模块;S2、将哈希编码输入相似检索模型的倒排索引单元中,获取与哈希编码的汉明距离小于或者等于预设值的桶;S3、对桶中的所有高维数据进行重排序,获取相似高维数据列表,将相似高维数据列表作为检索结果。本发明先使用哈希方法进行剪枝,然后使用原始特征进行重新排序,即加快了检索的效率,也保证了检索的精度。本发明能实现快速、准确的检索。
搜索关键词: 基于 分布 方法 数据 检索 系统
【主权项】:
1.一种高维数据检索方法,其特征在于,包括:S1、将待检索的数据点对应的高维数据输入训练好的相似检索模型中,获取所述待检索的数据点对应的哈希编码,其中,所述相似检索模型为神经网络模型且包括哈希编码模块;S2、将所述哈希编码输入所述相似检索模型的倒排索引单元中,获取与所述哈希编码的汉明距离小于或者等于预设值的桶;S3、对所述桶中的所有高维数据进行重排序,获取相似高维数据列表,将所述相似高维数据列表作为检索结果;步骤S1中所述训练好的相似检索模型通过如下步骤获取:从训练集中获取多个未使用的高维数据;将所述多个未使用的高维数据输入所述哈希编码模块,获取对哈希编码更匹配的低维特征向量;基于所述低维特征向量,获取所述低维特征向量对应的哈希编码,并根据所述低维特征向量对应的哈希编码计算设定损失函数对所述相似检索模型的哈希编码层的梯度;基于所述对所述相似检索模型的哈希编码层的梯度,对所述相似检索模型进行训练,获取所述训练好的相似检索模型;所述设定损失函数为:其中,O为设定损失函数,L为柯西交叉熵损失函数,为定义,Q为柯西量化损失函数,λ为调节柯西交叉熵损失和柯西量化损失权重的参数;所述设定损失函数由所述柯西交叉熵损失函数和所述柯西量化损失函数线性组合获取;所述柯西交叉熵损失函数通过下式表示:其中,L为所述柯西交叉熵损失函数,S为相似矩阵,sij为相似矩阵中的i排j列的元素,0≤i≤N,0≤j≤N,N为低维特征向量的总个数,wij为i排j列的元素的权重,zi为第i个低维特征向量,zj为第j个低维特征向量,d(zi,zj)为zi,zj之间的归一化欧几里德距离,γ为柯西分布的缩放参数;所述zi,zj之间归一化欧几里德距离通过下式获取:其中,d(zi,zj)为zi,zj之间的归一化欧几里德距离,zi为第i个低维特征向量,zj为第j个低维特征向量,K为哈希编码的位数,||.||为向量的欧几里得范数;所述柯西量化损失函数通过下式表示:其中,Q为所述柯西量化损失函数,0≤i≤N,N为训练数据的个数,zi为第i个低维特征向量,d(|zi|,1)为|zi|,1之间的归一化欧几里德距离,γ为柯西分布的缩放参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711353318.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top