[发明专利]参考距离相似性搜索在审
申请号: | 202010522234.8 | 申请日: | 2020-06-10 |
公开(公告)号: | CN112199408A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | D·伊兰;A·戈特利布 | 申请(专利权)人: | GSI科技公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参考 距离 相似性 搜索 | ||
一种相似性搜索系统包括原始向量的数据库、箱的层级数据库以及相似性搜索器。箱的层级数据库存储在关联存储器阵列中,每个箱由表示至少一个原始向量的阶向量标识,并且阶向量的维度小于原始向量的维度。相似性搜索器针对至少一个相似的箱在数据库中进行搜索,这些相似的箱的阶向量类似于表示查询向量的阶向量,并且该相似性搜索器提供由箱表示的类似于查询向量的至少一个原始向量。
相关申请的交叉引用
本申请要求享有于2019年7月8日提交的美国临时专利申请62/871,212以及于2020年4月1日提交的美国临时专利申请63/003,314的优先权,这两者通过引用并入本文。
技术领域
本发明总体上涉及关联计算,并且具体地涉及使用关联计算的数据挖掘算法。
背景技术
数据挖掘是发现大型数据集中的模式的计算过程。数据挖掘使用不同的技术来分析数据集。数据挖掘中经常需要的计算是在n维空间中的快速且准确的相似性搜索,其中空间中的存储在大型数据集中的每个项目都由n个浮点数的向量表示。相似性搜索的目的是迅速地标识数据集中类似于特定的查询项目的项目,该特定的查询项目也由n个浮点数的向量表示。
在整个文档中,包含维度S的L个向量的空间表示为E={E1,E2……El}(|E|=L),查询向量表示为Q(其也为维度S的),并且空间E中的一般向量表示为Ei(0iL)。搜索的目的是查找与Q最相似的(即,距Q的距离最小的)K个向量Ei∈E(KL)的子集。
用于查找与查询Q最相似的K个项目Ei的集合的最先进的解决方案中的一种是利用距离函数(例如,L2距离、余弦距离、汉明距离等)的K最邻近搜索算法。
发明内容
根据本发明的实施例,提供了一种相似性搜索系统。该系统包括原始向量的数据库、箱(bin)的层级数据库以及相似性搜索器。箱的层级数据库存储在关联存储器阵列中,每个箱由表示至少一个原始向量的阶向量标识,并且阶向量的维度小于原始向量的维度。相似性搜索器针对至少一个相似的箱在数据库中进行搜索,这些相似的箱的阶向量类似于表示查询向量的阶向量,并且该相似性搜索器提供由箱表示的类似于查询向量的至少一个原始向量。
另外地,根据本发明的实施例,层级数据库的箱存储在关联存储器阵列的列中,并且相似性搜索器对多个列同时操作。
此外,根据本发明的优选实施例,层级数据库按级别布置,每个级别存储在关联存储器阵列的不同部分中。
此外,根据本发明的优选实施例,系统包括层级数据库构建器,该层级数据库构建器用于根据原始向量的数据库来构建箱的层级数据库。
另外,根据本发明的优选实施例,层级数据库构建器包括参考向量定义器、阶向量创建器和箱创建器。参考向量定义器以原始向量的维度来定义参考向量的集合。阶向量创建器针对每个原始向量计算到每个参考向量的距离,并且创建阶向量,该阶向量包括按参考向量距原始向量的距离排序的参考向量的ID,并且箱创建器创建由表示至少一个原始向量的阶向量标识的箱。
另外地,根据本发明的优选实施例,层级数据库构建器将表示共享阶向量的不同原始向量的阶向量聚类到单个箱。
此外,根据本发明的优选实施例,层级数据库包括至少两个级别,并且一级别中的箱与较低级别中的箱相关联。
此外,根据本发明的优选实施例,相似性搜索器在层级数据库的第一级别中开始搜索,并且继续搜索在较低级别中的与在第一级别中找到的箱相关联的箱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于GSI科技公司,未经GSI科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010522234.8/2.html,转载请声明来源钻瓜专利网。