[发明专利]用于在候选向量集中查询相似向量的方法和装置在审
申请号: | 202110393852.1 | 申请日: | 2021-04-13 |
公开(公告)号: | CN115203383A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 徐嵩;张岚昕;屈玉峰;李春一 | 申请(专利权)人: | 澜起科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 北京市君合律师事务所 11517 | 代理人: | 毛健;顾云峰 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 候选 向量 集中 查询 相似 方法 装置 | ||
本申请公开了一种用于在候选向量集中查询与待查询向量相似的候选向量的方法,包括:获取一组待查询向量;对于该组待查询向量中的每个待查询向量,查询与其最接近的第一预定数量个候选向量子集;基于所述第一预定数量个候选向量集中的候选向量的中心向量部分的集合、以及残差向量部分的集合生成多个公共计算结果,并且存储所述多个公共计算结果;基于该组待查询向量与所述残差向量部分的集合生成预计算结果,并且存储所述预计算结果;以及针对该组待查询向量中的每个待查询向量,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量。
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种用于在候选向量集中查询相似向量的方法和装置。
背景技术
向量的相似度查询需要通过高性能的计算装置进行,因此目前主要通过中央处理器、图形处理器等计算能力较强的数据处理装置来完成。然而,中央处理器与图形处理器通常被设计为满足通用计算的要求,其针对向量相似度查询这一特定应用的专用性较差,也没有对向量相似度查询进行额外的硬件优化。
因此,有必要提供一种能够高效地执行向量的相似度查询的装置和方法。
发明内容
本申请的一个目的在于解决现有设备对相似向量查询的专用性较差而导致处理效率低这一技术问题。
在本申请的一个方面,提供了一种用于在候选向量集中查询与待查询向量相似的候选向量的方法,所述候选向量集包括多个候选向量,每个候选向量被经由量化处理并被表示为包括中心向量部分与残差向量部分,并且所述候选向量集包括多个候选向量子集,所述方法包括:获取一组待查询向量;对于该组待查询向量中的每个待查询向量,查询与其最接近的第一预定数量个候选向量子集;基于所述第一预定数量个候选向量集中的候选向量的中心向量部分的集合、以及残差向量部分的集合生成多个公共计算结果,并且存储所述多个公共计算结果;基于该组待查询向量与所述残差向量部分的集合生成预计算结果,并且存储所述预计算结果;以及针对该组待查询向量中的每个待查询向量,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量。
在一些实施例中,所述多个公共计算结果的生成是离线进行的,而所述预计算结果的生成是在线进行的。
在一些实施例中,所述预计算结果被存储为查找表形式的预计算结果表。
在一些实施例中,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量的步骤包括:对于每个待查询向量,计算所述待查询向量和其对应的各候选向量之间的距离;以及基于计算得到的距离对所述候选向量进行排序,以将与所述待查询向量最接近的第二预定数量个候选向量作为与所述待查询向量相似的第二预定数量个候选向量。
在一些实施例中,所述中心向量部分、所述残差向量部分以及所述待查询向量均被基于IVF-PQ算法划分为M个分段,其中M是大于1的自然数,所述公共计算结果被表示为:(xq-Ci)2+(pq_centroids(k,l))2+2*(Ci|pq_centroids(k,l)),其中,xq表示待查询向量,pq_centroids(k,l)表示残差向量部分,l表示残差向量部分的第l个分段,l=1…M,而k表示该第l个分段的量化值;Ci表示与候选向量相关联的第i个中心向量部分,i是自然数。
在一些实施例中,所述预计算结果被表示为:-2(xq|pq_centroids(k,l))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澜起科技股份有限公司,未经澜起科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110393852.1/2.html,转载请声明来源钻瓜专利网。