[发明专利]数据检索方法、装置以及计算机可读存储介质有效
申请号: | 202011302942.7 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112418298B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 程子翰;田国栋 | 申请(专利权)人: | 北京云从科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/903 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 屠晓旭;宋宝库 |
地址: | 102300 北京市门头沟区石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 检索 方法 装置 以及 计算机 可读 存储 介质 | ||
本发明涉及数据检索技术领域,具体提供了一种数据检索方法、装置以及计算机可读存储介质,旨在解决快速且准确地对大批量数据进行数据检索的技术问题。为此目的,根据本发明实施例的方法,利用PQ算法对向量样本进行相似数据检索,相较于暴力搜索的方法,能够显著提高数据的检索效率。同时,在获取到利用PQ算法生成的向量距离查询表之后,可以将向量距离查询表中的浮点型向量距离转换为整型向量距离,以降低向量距离查询表的数据大小,满足处理器的一级缓存的缓存存储要求,使得处理器只需在一级缓存中加载一次向量距离查询表,就可以完成对一个向量样本的相似性检索,克服了现有技术中由于反复加载向量距离查询表导致的检索效率下降的缺陷。
技术领域
本发明涉及数据检索技术领域,具体涉及一种数据检索方法、装置以及计算机可读存储介质。
背景技术
在利用深度学习算法对待处理数据(如待处理的图像或语音等)进行人脸类别识别或语音类别识别等数据识别处理时,往往需要根据待处理数据对数据库中预先存储的数据样本进行相似性检索,以获取与待处理数据相似的数据样本,最后根据这些数据样本的数据类别确定待处理数据的数据类别。例如:在对待处理图像进行人脸类别识别(如识别图像中的人脸具体属于哪一个人的人脸)时,首先提取待处理图像中的人脸特征,然后根据人脸特征对预设的人脸图像样本进行相似性检索,得到与待处理图像中的人脸相似的人脸图像样本,最后根据这些人脸图像样本对应的人脸类别确定待处理图像中人脸的人脸类别。
为了提高对待处理数据进行相似性检索的准确性,目前主要是采用暴力搜索(Violent search)的方法进行检索。具体而言,可以将待处理数据与每个数据样本逐一进行相似度计算,根据每个数据样本各自对应的相似度计算的结果,选取与待处理数据相似的一个或多个数据样本。然而,在需要进行检索的数据样本的数据量较大的应用场景(例如对火车站内监控装置采集到的包含了数亿个人脸图像的历史监控视频进行人脸识别)中,如果仍采用暴力搜索的方法进行数据检索,将会极大地延长数据的检索时间,从而导致数据识别处理的处理效率下降。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何快速且准确地对大批量数据进行数据检索的技术问题的数据检索方法、装置以及计算机可读存储介质。
第一方面,提供一种数据检索方法,所述数据检索方法包括:
利用PQ算法并且根据待检索向量与当前目标向量样本组,获取与所述待检索向量和所述当前目标向量样本组对应的向量距离查询表;
将所述向量距离查询表中的浮点型向量距离转换为整型向量距离,以形成整型向量距离查询表;
根据所述整型向量距离查询表获取所述当前目标向量样本组中的每个向量样本与所述待检索向量之间的第一整型向量距离;
按照距离值选取多个所述第一整型向量距离对应的向量样本作为与所述待检索向量相似的相似向量样本。
在上述数据检索方法的一个技术方案中,“将所述向量距离查询表中的浮点型向量距离转换为整型向量距离”的步骤具体包括:
获取所述向量距离查询表中的最大浮点型向量距离;
根据所述最大浮点型向量距离并且按照下式所示的方法将所述向量距离查询表中的每个浮点型向量距离分别转换为整型向量距离:
其中,所述Vquantized_i表示对所述向量距离查询表中的第i个浮点型向量距离Vfloat_i转换后得到的整型向量距离,所述Vmax表示所述最大浮点型向量距离。
在上述数据检索方法的一个技术方案中,在“利用PQ算法并且根据待检索向量与当前目标向量样本组,获取与所述待检索向量和所述当前目标向量样本组对应的向量距离查询表”的步骤之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云从科技有限公司,未经北京云从科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011302942.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:缩放图像还原方法、装置、计算机设备及存储介质
- 下一篇:一种麻圆加工设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置