[发明专利]一种面向大规模数据的自适应最近邻查询方法有效
申请号: | 201811298577.X | 申请日: | 2018-11-02 |
公开(公告)号: | CN109634952B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 任艳多;钱江波;孙瑶;胡伟 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 程天鹏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向大规模数据的自适应最近邻查询方法,特点是首先获取包含多个原始大规模数据的数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始数据集构造成若干个子数据集,然后学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按序排列得到所有子数据集的编码索引,再获取查询点在每个子数据集下的查找表,接下来获取查询点在对应的子数据集下的候选集并融合,得到对给定的查询点的最近邻查询结果;这种子数据集的构造方式能更好地挖掘数据集分布的信息,最大限度地降低了编码的冗余,提升了对给定的查询点的最近邻查询过程的查询精度和查询效率。 | ||
搜索关键词: | 一种 面向 大规模 数据 自适应 近邻 查询 方法 | ||
【主权项】:
1.一种面向大规模数据的自适应最近邻查询方法,其特征在于包括以下步骤:①获取包含多个原始大规模数据的原始大规模数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集,通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中,得到查询点在每个子数据集中对应的映射数据;②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集,并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度;③将每个子数据集分别映射到乘积空间,通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引;④根据所有子数据集的编码索引,在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射,得到查询点在每个子数据集下的查找表;⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表,分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点集,并将每个最近邻点集作为查询点在对应的子数据集下的候选集;⑥将查询点对应的所有子数据集空间下的候选集进行融合,将融合后的数据集作为对给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811298577.X/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置