[发明专利]数据索引建立、数据检索方法、装置、设备和存储介质在审
申请号: | 201910883196.6 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110825894A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 张艳;孙太武;周超勇;刘玉宇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/53;G06F16/55 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 索引 建立 检索 方法 装置 设备 存储 介质 | ||
1.一种数据索引建立方法,其特征在于,包括:
根据数据集合的数据量级别,获取与所述数据量级别关联的分段聚类模型;
将所述数据集合中所有数据样本输入至所述分段聚类模型中,接收所述分段聚类模型输出的N个一类聚类中心;N为正整数;
自所述数据集合中读取所述数据样本,将读取的所述数据样本归入至距离最近的所述一类聚类中心,并将N个量化器分别与N个一类聚类中心一一对应关联;
对与各所述量化器关联的所述数据样本进行二次聚类,确定二类聚类中心以及与各所述二类聚类中心关联的所述数据样本;
建立与N个所述量化器对应的N个索引表;每一个所述索引表中包含至少一项索引,每一项索引包括一个二类聚类中心和与该二类聚类中心关联的所有所述数据样本。
2.如权利要求1所述的数据索引建立方法,其特征在于,所述根据数据集合的数据量级别,获取与所述数据量级别关联的分段聚类模型之前,包括:
获取数据集合中包含的数据样本的数据量,并将所述数据量输入至预设的输出模型中;
接收所述输出模型输出的数据量级别,并确定出所述数据集合的数据量级别。
3.如权利要求1所述的数据索引建立方法,其特征在于,所述输出模型为:
n=logλ[Xn/X0]
其中,n为所述数据量级别;λ为级别系数;Xn为所述数据量;X0为初始级别对应的初始数量。
4.如权利要求1所述的数据索引建立方法,其特征在于,所述将所述数据集合中所有数据样本输入至所述分段聚类模型中,接收所述分段聚类模型输出的N个一类聚类中心,包括:
利用所述分段聚类模型,自所有所述数据样本中确定出预选数量的所述数据样本以及对应的特征向量;
利用分段聚类模型对每一个所述特征向量根据维度进行分段,以形成每一个所述特征向量中各段对应的分段向量;
利用分段聚类模型分别对每一个特征向量中各个相同段对应的所述分段向量进行聚类,确定出各段对应的K个一类聚类中心;K为正整数;
根据各段对应的K个所述一类聚类中心,确定出所述分段聚类模型输出的N个一类聚类中心。
5.一种数据检索方法,其特征在于,所述的数据检索方法利用如权利要求1-4任一所述的数据索引建立方法得到的索引表进行图像数据检索,包括:
接收包含图像查询样本的查询请求,获取所述图像查询样本的查询向量;
自所述索引表中包含的所有所述二类聚类中心中,获取与所述查询向量之间的距离满足第一预定条件的二类聚类中心,并将满足所述第一预定条件的二类聚类中心对应的数据样本确定为图像对比样本;
确定所述图像对比样本与所述图像查询样本之间的样本距离;
将所述样本距离满足第二预定条件的所述图像对比样本作为查询请求的查询结果显示在客户端。
6.如权利要求5所述的数据检索方法,其特征在于,所述第一预定条件为距离小于第一距离阈值;所述第二预定条件为样本距离小于第二距离阈值。
7.一种数据索引建立装置,其特征在于,包括:
模型匹配模块,用于根据数据集合的数据量级别,获取与所述数据量级别关联的分段聚类模型;
一次聚类模块,用于将所述数据集合中所有数据样本输入至所述分段聚类模型中,接收所述分段聚类模型输出的N个一类聚类中心;N为正整数;
数据添加模块,用于自所述数据集合中读取所述数据样本,将读取的所述数据样本归入至距离最近的所述一类聚类中心,并将N个量化器分别与N个一类聚类中心一一对应关联;
二次聚类模块,用于对与各所述量化器关联的所述数据样本进行二次聚类,确定二类聚类中心以及与各所述二类聚类中心关联的所述数据样本;
索引建立模块,用于建立与N个所述量化器对应的N个索引表;每一个所述索引表中包含至少一项索引,每一项索引包括一个二类聚类中心和与该二类聚类中心关联的所有所述数据样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910883196.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模拟时钟的实现方法及装置
- 下一篇:语音助手显示方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置