[发明专利]基于倒排表的数据检索方法、系统、介质及装置在审
申请号: | 202110554146.0 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113326388A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 杨乔;田国栋 | 申请(专利权)人: | 上海云从汇临人工智能科技有限公司 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/583;G06F16/71;G06F16/783;G06K9/00 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 王文凯;宋宝库 |
地址: | 200120 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 倒排表 数据 检索 方法 系统 介质 装置 | ||
本发明属于数据检索技术领域,具体涉及一种基于倒排表的数据检索方法、系统、介质及装置。本发明旨在解决现有的将人脸照片的时间和空间属性编码到特征中的方法会使得人脸特征变长,对设备储存的要求较高以及检索过程变得更加漫长的问题。为此目的,本发明通过基于输入特征向量以及输入标签信息在所有的倒排表中进行数据检索,其中的倒排表存储有数据的特征向量以及标签信息,标签信息具有时空属性。从而,该方法不仅能够支持具有时间/空间范围要求的大规模向量相似性检索,还减少了数据的特征向量的长度,降低了对设备存储能力的要求。同时,还能够减少倒排表中特征向量需要与输入特征向量进行匹配的数量,使得数据检索的过程更加高效。
技术领域
本发明属于数据检索技术领域,具体涉及一种基于倒排表的数据检索方法、系统、介质及装置。
背景技术
在智慧社区、智能安防和AI城市等方面都会涉及到大规模的图片或视频数据的检索,而基于倒排索引进行检索是在大规模向量相似度检索中常用的方法。
目前,在构建倒排表的过程中,以大规模人脸特征的检索为例,人脸照片由特定区域的某个特定的摄像头拍摄而具有了空间属性,同时该人脸照片的拍摄时间能够作为其时间属性,一般会将人脸照片的时间和空间属性编码到人脸特征中,将其看作是人脸特征的一部分,再进一步将该人脸特征添加到倒排表,从而加入数据库。
但是,现有的将人脸照片的时间和空间属性编码到特征中的方法会使得人脸特征变长,对设备储存的要求较高,同时也使得检索过程变得更加漫长。
相应地,本领域需要一种改进的基于倒排表的数据检索方法来解决上述问题。
发明内容
为了解决或至少部分解决:现有的将人脸照片的时间和空间属性编码到特征中的方法会使得人脸特征变长,对设备储存的要求较高,同时也使得检索过程变得更加漫长的问题。本发明提供了一种基于倒排表的数据检索方法、系统、介质及装置。
第一方面,本发明提供了一种基于倒排表的数据检索方法,包括:获取数据检索所需的输入特征向量以及输入标签信息;基于所述输入特征向量以及所述输入标签信息在所有的倒排表中进行数据检索;其中,所述倒排表存储有数据的特征向量以及标签信息,所述标签信息具有时空属性。
作为本发明提供的上述数据检索方法的一种优选的技术方案,“基于所述输入特征向量以及所述输入标签信息在所有的倒排表中进行数据检索”的步骤包括:将所述输入特征向量与所有的倒排表的簇中心分别进行相似度检索,得到与所述输入特征向量相似的多个相似倒排表;依据所述输入标签信息的起始标签和终止标签在所述多个相似倒排表中分别进行数据查找,以找到位于所述起始标签和所述终止标签区间内的标签信息对应的多个第一特征向量;将所述输入特征向量与所述多个第一特征向量分别进行向量相似性检索,以确定出与所述输入特征向量最相似的topK个第二特征向量所对应的目标数据。
作为本发明提供的上述数据检索方法的一种优选的技术方案,在“将所述输入特征向量与所述多个第一特征向量分别进行向量相似性检索,以确定出与所述第一特征向量最相似的topK个第二特征向量对应的目标数据”的步骤具体包括:将每个相似倒排表中的多个第一特征向量分别与所述输入特征向量进行扫描比对,并通过一个大小为topK的最大堆/最小堆根据对比的结果收集得到所有的第二特征向量,然后将所有的第二特征向量进行堆排序,并以所述堆排序的结果确定所有的第二特征向量对应的目标数据。
作为本发明提供的上述数据检索方法的一种优选的技术方案,所述输入特征向量为待新增的数据的特征向量,且所述输入标签信息为待新增的数据的标签信息;“基于所述输入特征向量以及所述输入标签信息在所有的倒排表中进行数据检索”的步骤包括:将所述输入特征向量与所有的倒排表的簇中心分别进行相似度检索,得到与所述输入特征向量最相似的最相似倒排表;基于所述输入标签信息在所述最相似倒排表中查找所述待新增的数据的待插入位置,并将所述待新增的数据存储到所述待插入位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从汇临人工智能科技有限公司,未经上海云从汇临人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110554146.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗热冲击的高导热环氧灌封胶及制备方法
- 下一篇:一种物联网数据汇聚系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置