[发明专利]近邻搜索方法与系统有效

专利信息
申请号: 201310011407.X 申请日: 2013-01-11
公开(公告)号: CN103020321A 公开(公告)日: 2013-04-03
发明(设计)人: 钟海兰 申请(专利权)人: 广东图图搜网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 王茹;曾旻辉
地址: 528311 广东省佛山市顺*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 近邻 搜索 方法 系统
【说明书】:

技术领域

发明涉及信息检索技术领域,特别是涉及一种近邻搜索方法与系统。

背景技术

随着信息技术的迅速发展,数据采集能力的提高导致各领域数据量和维度都呈指数级增长。然而,数据量和数据维度的迅速增长让搜索变得异常困难。例如,对于一张输入的图片,当我们需要在海量图片库中查找与这张图片相同或相似的图片时,我们不仅要找得准,还要找得快。在这个例子中,我们可以将图像抽象成数据点,数据点之间的相似程度通常可以用欧式距离来衡量,近邻搜索就是指找到与查询数据点在这种相似性度量下的相似数据点。

如果将查询数据点与数据库中的所有点一个一个进行比较,虽然可以保证检索精度,但是对于海量高维数据就会变得非常慢。传统的基于树结构的近邻搜索技术如果要得到比较高的准确率,其会随着数据维度的的增高,检索速度迅速下降。

发明内容

基于上述情况,本发明提出了一种近邻搜索方法与系统,以提高近邻搜索的速度,同时保证准确率。

一种近邻搜索方法,包括线下学习和线上搜索,

所述线下学习包括如下步骤:

随机均匀选取数据集中的预定数目的数据点作为锚点,通过计算数据点与所述锚点之间的距离得到核矩阵,并中心化该核矩阵;

学习预定数目的二进制位的投影和阈值,每一个二进制位的学习包括:计算密度和均衡互补信息,使用中心化后的核矩阵及所述密度和均衡互补信息学习出投影和阈值,目标函数是最小化哈希超平面两侧小区域内数据点的个数,并保证桶是近似均衡的;

通过中心化后的核矩阵,以及学习出的预定数目的二进制位的投影和阈值,将数据集中的数据点转换成二进制串,将相同二进制串的数据点放置到对应的桶中,建立哈希表;

所述线上搜索包括如下步骤:

对于每个查询数据点使用相同的所述锚点和核矩阵的均值得到查询数据点中心化后的核矩阵。

使用查询数据点中心化后的核矩阵,以及学习出的投影和阈值,将每个查询数据点转换成二进制串。

根据查询数据点转换的二进制串,在所述哈希表的对应桶中查找出预定数目的数据点,作为查询数据点的近邻。

一种近邻搜索系统,包括线下学习单元和线上搜索单元,

所述线下学习单元包括:

训练点核矩阵确定模块,用于随机均匀选取数据集中的预定数目的数据点作为锚点,通过计算数据点与所述锚点之间的距离得到核矩阵,并中心化该核矩阵;

投影和阈值学习模块,用于学习预定数目的二进制位的投影和阈值,每一个二进制位的学习包括:计算密度和均衡互补信息,使用中心化后的核矩阵及所述密度和均衡互补信息学习出投影和阈值,目标函数是最小化哈希超平面两侧小区域内数据点的个数,并保证桶是近似均衡的;

哈希表建立模块,用于通过中心化后的核矩阵,以及学习出的预定数目的二进制位的投影和阈值,将数据集中的数据点转换成二进制串,将相同二进制串的数据点放置到对应的桶中,建立哈希表;

所述线上搜索单元包括:

查询点核矩阵确定模块,用于对于每个查询数据点使用相同的所述锚点和核矩阵的均值得到查询数据点中心化后的核矩阵。

二进制串转换模块,用于使用查询数据点中心化后的核矩阵,以及学习出的投影和阈值,将每个查询数据点转换成二进制串。

哈希桶查找模块,用于根据查询数据点转换的二进制串,在所述哈希表的对应桶中查找出预定数目的数据点,作为查询数据点的近邻。

本发明近邻搜索方法与系统,通过最小化哈希超平面两侧小区域内数据点个数的学习函数,使哈希超平面穿过数据的稀疏区域,从而保证近邻搜索的高准确率,通过近似均衡桶条件,给学习函数加上近似均衡桶正则项,使哈希超平面对数据点划分得更均衡,从而保证近邻搜索的高搜索速度。无论是对于少量还是海量数据,本方法与系统都能进行高准确率和高速度的近邻搜索。

附图说明

图1为本发明近邻搜索方法的流程示意图;

图2为本发明近邻搜索方法线下学习的流程示意图;

图3为本发明近邻搜索方法线上搜索的流程示意图;

图4为本发明近邻搜索系统的结构示意图;

图5为本发明近邻搜索系统其中一个实施例的流程示意图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东图图搜网络科技有限公司,未经广东图图搜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310011407.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top