[发明专利]参考距离相似性搜索在审
申请号: | 202010522234.8 | 申请日: | 2020-06-10 |
公开(公告)号: | CN112199408A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | D·伊兰;A·戈特利布 | 申请(专利权)人: | GSI科技公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参考 距离 相似性 搜索 | ||
1.一种相似性搜索系统,包括:
包括多个原始向量的数据库;
被存储在关联存储器阵列中的箱的层级数据库,每个箱由表示至少一个原始向量的阶向量标识,所述阶向量的维度小于所述原始向量的维度;以及
相似性搜索器,其用于针对至少一个相似的箱在所述数据库中进行搜索,所述相似的箱的阶向量类似于表示查询向量的阶向量,并且所述相似性搜索器用于提供由所述箱表示的所述至少一个原始向量,所述原始向量类似于所述查询向量。
2.根据权利要求1所述的系统,其中,所述层级数据库的箱被存储在所述关联存储器阵列的列中,并且所述相似性搜索器对多个所述列同时操作。
3.根据权利要求2所述的系统,其中,所述层级数据库按级别布置,每个级别被存储在所述关联存储器阵列的不同部分中。
4.根据权利要求1所述的系统,还包括层级数据库构建器,其用于根据原始向量的所述数据库来构建箱的所述层级数据库。
5.根据权利要求4所述的系统,其中,所述层级数据库构建器包括:
参考向量定义器,其用于以所述原始向量的维度来定义参考向量的集合;
阶向量创建器,其用于针对每个原始向量计算到每个参考向量的距离,并且创建阶向量,所述阶向量包括按所述参考向量距所述原始向量的距离排序的所述参考向量的ID;以及
箱创建器,其用于创建由表示至少一个原始向量的阶向量标识的箱。
6.根据权利要求5所述的系统,所述层级数据库构建器还用于将表示共享阶向量的不同原始向量的阶向量聚类到单个箱。
7.根据权利要求1所述的系统,其中,所述层级数据库包括至少两个级别,并且其中,一级别中的箱与较低级别中的箱相关联。
8.根据权利要求7所述的系统,其中,所述相似性搜索器用于在所述层级数据库的第一级别中开始所述搜索,并且继续搜索在较低级别中的与在所述第一级别中找到的箱相关联的箱。
9.一种用于在原始向量的数据库中查找向量的集合的方法,所述向量的集合与查询向量相似,所述方法包括:
访问参考向量的集合;
使用所述参考向量来创建与所述查询向量相关联的查询阶向量,所述查询阶向量的维度小于所述查询向量的维度;以及
在被存储在关联存储器阵列中的箱的层级数据库中搜索至少一个相似的箱,每个箱表示至少一个原始向量并且由使用所述参考向量的集合创建的阶向量标识,所述至少一个相似的箱的阶向量类似于所述查询阶向量;以及
提供由所述相似的箱表示的所述至少一个原始向量,所述原始向量类似于所述查询向量。
10.根据权利要求9所述的方法,其中,所述层级数据库将箱存储在所述关联存储器阵列的列中,并且搜索的所述步骤对多个所述列同时操作。
11.根据权利要求10所述的方法,还将所述层级数据库按级别布置,每个级别在所述关联存储器阵列的不同部分中。
12.根据权利要求9所述的方法,还包括根据原始向量的所述数据库来构建箱的所述层级数据库。
13.根据权利要求12所述的方法,其中,构建所述层级数据库的所述步骤包括:
以所述原始向量的维度来定义所述参考向量的集合;
针对每个原始向量计算到每个参考向量的距离,并且创建阶向量,所述阶向量包括按所述参考向量距所述原始向量的距离排序的所述参考向量的ID;以及
用于创建由表示至少一个原始向量的阶向量标识的箱的箱创建器。
14.根据权利要求13所述的方法,还包括将表示共享阶向量的不同原始向量的阶向量聚类到单个箱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于GSI科技公司,未经GSI科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010522234.8/1.html,转载请声明来源钻瓜专利网。