[发明专利]一种索引建立方法及系统、检索方法及系统有效
申请号: | 201310406274.6 | 申请日: | 2013-09-09 |
公开(公告)号: | CN103488709A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 李东鸽;陈廷斌 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 索引 建立 方法 系统 检索 | ||
1.一种索引建立方法,其特征在于,所述方法包括:
采集服务器将采集的真实数据存储,并根据真实数据的存储位置生成索引数据;所述索引数据包括关键值;
将索引数据按照关键值顺序存入当前缓冲块;将缓冲块中的索引数据按照关键值顺序连续的排列到索引块中;
将索引块依次排列作为索引文件。
2.根据权利要求1所述方法,其特征在于,所述索引数据包括:
真实数据的存储位置、长度、压缩状态信息以及关键值;
所述关键值为利用哈希算法对真实数据的特征值进行计算得到的哈希值。
3.根据权利要求1所述方法,其特征在于,所述将采集的真实数据存储具体为:
采集一个真实数据,判断该真实数据的体积是否超过压缩阈值,若超过则对真实数据进行压缩;
将未经压缩的或压缩后的真实数据存入当前数据块。
4.根据权利要求1所述方法,其特征在于,所述缓冲块具体包括:
缓冲块状态、缓冲块体积、索引数据、最大关键值和最小关键值。
5.根据权利要求4所述方法,其特征在于,所述缓冲块中的索引数据按照关键值顺序连续的排列到索引块中具体为:
设定索引块数量,并分配当前索引块,重复的历便所有缓冲块当前的最大关键值或最小关键值;
提取当前所有缓冲块中最大的最大关键值或最小的最小关键值对应的索引数据,并写入当前索引块中首位,若首位占用则写入到前一次写入的索引数据之后;
修改被提取索引数据的缓冲块的最大关键值或最小关键值;直到所有索引数据均被写入索引块中停止写入。
6.根据权利要求5所述方法,其特征在于,所述设定索引块数量具体为:
设定比较优化公式,所述比较优化公式为
t为检索比较次数,n为索引数据的总数,b为索引块的总数,t、n、b均为自然数;当b=b’使t为最小值,则b’为索引块参考数量;
将索引块参考数量设定为索引块数量。
7.根据权利要求1-6任意一项所述方法,其特征在于,所述索引数据按关键值顺序连续排列作为索引文件具体为:
将索引块依次排列作为索引文件。
8.根据权利要求1-6任意一项所述方法,其特征在于,所述方法还包括:
采集服务器将索引文件缓存至内存,并备份至硬盘。
9.一种索引建立系统,其特征在于,所述系统具体包括:
数据存储模块,用于将采集的真实数据存储;
生成模块,用于根据真实数据的存储位置生成索引数据;所述索引数据包括关键值;
缓冲模块,用于将索引数据按照关键值顺序存入当前缓冲块;
索引制作模块,用于将缓冲块中的索引数据按照关键值顺序连续的排列到索引块中,将索引块依次排列作为索引文件。
10.一种检索方法,其特征在于,所述方法包括以下步骤:
获悉目标数据的关键值;
以目标数据的关键值比较索引文件中各索引块的关键值范围,确定一个关键值范围涵盖目标数据关键值的索引块为目标索引块;
在目标索引块中搜寻得到与目标数据关键值相等的索引数据,将该索引数据作为目标索引数据;
从目标索引数据中提取目标数据的存储位置,并从该存储位置读取目标数据。
11.一种检索系统,其特征在于,所述系统具体包括:
关键值模块,用于获悉目标数据的关键值;
索引块比较模块,用于以目标数据的关键值比较索引文件中各索引块的关键值范围,确定一个关键值范围涵盖目标数据关键值的索引块为目标索引块;
索引数据比较模块,用于在目标索引块中搜寻得到与目标数据关键值相等的索引数据,将该索引数据作为目标索引数据;
数据读取模块,用于从目标索引数据中提取目标数据的存储位置,并从该存储位置读取目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310406274.6/1.html,转载请声明来源钻瓜专利网。