[发明专利]用于在候选向量集中查询相似向量的方法和装置在审
申请号: | 202110393852.1 | 申请日: | 2021-04-13 |
公开(公告)号: | CN115203383A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 徐嵩;张岚昕;屈玉峰;李春一 | 申请(专利权)人: | 澜起科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 北京市君合律师事务所 11517 | 代理人: | 毛健;顾云峰 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 候选 向量 集中 查询 相似 方法 装置 | ||
1.一种用于在候选向量集中查询与待查询向量相似的候选向量的方法,其特征在于,所述候选向量集包括多个候选向量,每个候选向量被经由量化处理并被表示为包括中心向量部分与残差向量部分,并且所述候选向量集包括多个候选向量子集,所述方法包括:
获取一组待查询向量;
对于该组待查询向量中的每个待查询向量,查询与其最接近的第一预定数量个候选向量子集;
基于所述第一预定数量个候选向量集中的候选向量的中心向量部分的集合、以及残差向量部分的集合生成多个公共计算结果,并且存储所述多个公共计算结果;
基于该组待查询向量与所述残差向量部分的集合生成预计算结果,并且存储所述预计算结果;以及
针对该组待查询向量中的每个待查询向量,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量。
2.根据权利要求1所述的方法,其特征在于,所述多个公共计算结果的生成是离线进行的,而所述预计算结果的生成是在线进行的。
3.根据权利要求2所述的方法,其特征在于,所述预计算结果被存储为查找表形式的预计算结果表。
4.根据权利要求1所述的方法,其特征在于,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量的步骤包括:
对于每个待查询向量,计算所述待查询向量和其对应的各候选向量之间的距离;以及
基于计算得到的距离对所述候选向量进行排序,以将与所述待查询向量最接近的第二预定数量个候选向量作为与所述待查询向量相似的第二预定数量个候选向量。
5.根据权利要求1所述的方法,其特征在于,所述中心向量部分、所述残差向量部分以及所述待查询向量均被基于IVF-PQ算法划分为M个分段,其中M是大于1的自然数,所述公共计算结果被表示为:(xq-Ci)2+(pq_centroids(k,l))2+2*(Ci|pq_centroids(k,l)),其中,xq表示待查询向量,pq_centroids(k,l)表示残差向量部分,l表示残差向量部分的第l个分段,l=1…M,而k表示该第l个分段的量化值;Ci表示与候选向量相关联的第i个中心向量部分,i是自然数。
6.根据权利要求5所述的方法,其特征在于,所述预计算结果被表示为:-2(xq|pq_centroids(k,l))。
7.一种相似度检索装置,用于在候选向量集中查询与待查询向量相似的候选向量的方法,其特征在于,所述候选向量集包括多个候选向量,每个候选向量被经由量化处理并被表示为包括中心向量部分与残差向量部分,并且所述候选向量集包括多个候选向量子集,所述相似度检索装置包括:
计算模块,用于分别对待查询向量与候选向量子集之间的距离进行计算,以及对候选向量与待查询向量进行相似度的计算;以及
排序模块,用于对待查询向量与候选向量子集之间的距离以及候选向量与待查询向量的相似度计算结果进行排序;
其中,所述计算模块通过下述过程计算距离和相似度:
获取一组待查询向量;
对于该组待查询向量中的每个待查询向量,计算其每个候选向量子集之间的距离并提供给所述排序模块;
基于所述第一预定数量个候选向量集中的候选向量的中心向量部分的集合、以及残差向量部分的集合生成多个公共计算结果,并且存储所述多个公共计算结果;
基于该组待查询向量与所述残差向量部分的集合生成预计算结果,并且存储所述预计算结果;以及
针对该组待查询向量中的每个待查询向量,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澜起科技股份有限公司,未经澜起科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110393852.1/1.html,转载请声明来源钻瓜专利网。