[发明专利]一种面向大规模数据的自适应最近邻查询方法有效

专利信息
申请号: 201811298577.X 申请日: 2018-11-02
公开(公告)号: CN109634952B 公开(公告)日: 2021-08-17
发明(设计)人: 任艳多;钱江波;孙瑶;胡伟 申请(专利权)人: 宁波大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2458
代理公司: 宁波奥圣专利代理有限公司 33226 代理人: 程天鹏
地址: 315211 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向大规模数据的自适应最近邻查询方法,特点是首先获取包含多个原始大规模数据的数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始数据集构造成若干个子数据集,然后学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按序排列得到所有子数据集的编码索引,再获取查询点在每个子数据集下的查找表,接下来获取查询点在对应的子数据集下的候选集并融合,得到对给定的查询点的最近邻查询结果;这种子数据集的构造方式能更好地挖掘数据集分布的信息,最大限度地降低了编码的冗余,提升了对给定的查询点的最近邻查询过程的查询精度和查询效率。
搜索关键词: 一种 面向 大规模 数据 自适应 近邻 查询 方法
【主权项】:
1.一种面向大规模数据的自适应最近邻查询方法,其特征在于包括以下步骤:①获取包含多个原始大规模数据的原始大规模数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集,通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中,得到查询点在每个子数据集中对应的映射数据;②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集,并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度;③将每个子数据集分别映射到乘积空间,通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引;④根据所有子数据集的编码索引,在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射,得到查询点在每个子数据集下的查找表;⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表,分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点集,并将每个最近邻点集作为查询点在对应的子数据集下的候选集;⑥将查询点对应的所有子数据集空间下的候选集进行融合,将融合后的数据集作为对给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811298577.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top