[发明专利]用于在候选向量集中查询相似向量的方法和装置在审

专利信息
申请号: 202110393852.1 申请日: 2021-04-13
公开(公告)号: CN115203383A 公开(公告)日: 2022-10-18
发明(设计)人: 徐嵩;张岚昕;屈玉峰;李春一 申请(专利权)人: 澜起科技股份有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35
代理公司: 北京市君合律师事务所 11517 代理人: 毛健;顾云峰
地址: 200233 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 候选 向量 集中 查询 相似 方法 装置
【说明书】:

本申请公开了一种用于在候选向量集中查询与待查询向量相似的候选向量的方法,包括:获取一组待查询向量;对于该组待查询向量中的每个待查询向量,查询与其最接近的第一预定数量个候选向量子集;基于所述第一预定数量个候选向量集中的候选向量的中心向量部分的集合、以及残差向量部分的集合生成多个公共计算结果,并且存储所述多个公共计算结果;基于该组待查询向量与所述残差向量部分的集合生成预计算结果,并且存储所述预计算结果;以及针对该组待查询向量中的每个待查询向量,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量。

技术领域

本申请涉及计算机技术领域,更具体地,涉及一种用于在候选向量集中查询相似向量的方法和装置。

背景技术

向量的相似度查询需要通过高性能的计算装置进行,因此目前主要通过中央处理器、图形处理器等计算能力较强的数据处理装置来完成。然而,中央处理器与图形处理器通常被设计为满足通用计算的要求,其针对向量相似度查询这一特定应用的专用性较差,也没有对向量相似度查询进行额外的硬件优化。

因此,有必要提供一种能够高效地执行向量的相似度查询的装置和方法。

发明内容

本申请的一个目的在于解决现有设备对相似向量查询的专用性较差而导致处理效率低这一技术问题。

在本申请的一个方面,提供了一种用于在候选向量集中查询与待查询向量相似的候选向量的方法,所述候选向量集包括多个候选向量,每个候选向量被经由量化处理并被表示为包括中心向量部分与残差向量部分,并且所述候选向量集包括多个候选向量子集,所述方法包括:获取一组待查询向量;对于该组待查询向量中的每个待查询向量,查询与其最接近的第一预定数量个候选向量子集;基于所述第一预定数量个候选向量集中的候选向量的中心向量部分的集合、以及残差向量部分的集合生成多个公共计算结果,并且存储所述多个公共计算结果;基于该组待查询向量与所述残差向量部分的集合生成预计算结果,并且存储所述预计算结果;以及针对该组待查询向量中的每个待查询向量,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量。

在一些实施例中,所述多个公共计算结果的生成是离线进行的,而所述预计算结果的生成是在线进行的。

在一些实施例中,所述预计算结果被存储为查找表形式的预计算结果表。

在一些实施例中,基于所存储的预计算结果、公共计算结果来确定对应的第一预定数量个候选向量子集中的候选向量中与所述待查询向量相似的第二预定数量个候选向量的步骤包括:对于每个待查询向量,计算所述待查询向量和其对应的各候选向量之间的距离;以及基于计算得到的距离对所述候选向量进行排序,以将与所述待查询向量最接近的第二预定数量个候选向量作为与所述待查询向量相似的第二预定数量个候选向量。

在一些实施例中,所述中心向量部分、所述残差向量部分以及所述待查询向量均被基于IVF-PQ算法划分为M个分段,其中M是大于1的自然数,所述公共计算结果被表示为:(xq-Ci)2+(pq_centroids(k,l))2+2*(Ci|pq_centroids(k,l)),其中,xq表示待查询向量,pq_centroids(k,l)表示残差向量部分,l表示残差向量部分的第l个分段,l=1…M,而k表示该第l个分段的量化值;Ci表示与候选向量相关联的第i个中心向量部分,i是自然数。

在一些实施例中,所述预计算结果被表示为:-2(xq|pq_centroids(k,l))。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澜起科技股份有限公司,未经澜起科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110393852.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top