[发明专利]构造索引库的方法和设备以及查询方法无效

专利信息
申请号: 201010103610.6 申请日: 2010-01-22
公开(公告)号: CN102135969A 公开(公告)日: 2011-07-27
发明(设计)人: 葛付江;王主龙;孟遥;于浩;贾文杰 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 潘士霖;陈炜
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 构造 索引 方法 设备 以及 查询
【说明书】:

技术领域

发明涉及信息处理技术,更具体地,涉及构造索引库的方法和设备以及利用该索引库进行查询的方法。

背景技术

传统的索引结构主要包括索引项词典和索引数据。索引项词典记录了所有索引项。索引项用于在索引构造和索引检索时查找某个关键词,并且包含记录索引数据位置的记录项。索引数据包含索引的具体信息,例如包含对应的索引项的文档标识等。

图1示出了简化的索引结构示例的示意图。如图1所示,该索引结构包括索引项词典1和索引数据2。索引项词典1中包含i个索引项:词汇1、词汇2、…、词汇i,其中词汇1的索引数据是所有包含词汇1的文档d11、d21、…、dt1,以此类推。实际的索引数据根据需要还可包含其它的统计信息,例如该索引项在每个文档中的频率、位置等。

传统的索引结构有两种组织方式:单级索引和多级索引。

图2示出了一个包含a、b、d、f、j、k共6个词汇的单级索引的索引项词典的示例的示意图,该索引项词典以顺序方式组织。该索引项词典在初次被载入内存之后,以后都可以在内存中进行快速的查找和定位。但是,如果内存容量有限,无法载入所有的索引项,则需要每次载入一定数目的索引项,查找完毕再载入下一批数据。例如,如果索引项总量为n,内存容量为k个索引项,则一次查找最多需要n/(k+1)次磁盘访问。由此可见,在索引项数目较大的情况下,单级索引是一种效率较低的方案。

多级索引则通常以多个层次的树等方式组织索引项。图3示出了一个包含a、b、d、f、j、k共6个词汇的树形方式组织的二级索引的索引项词典的示例的示意图。假设内存的容量为3个索引项,则6个索引项被分为两块组织,并以两块的上层建立一级索引,形成一个二级索引。如果索引项更多,则依次向上建立树形方式组织的多级索引。在查找时从顶端载入,逐级向下查找,最多需要logkn+1次磁盘访问。由此可见,多级索引的方法便于组织大规模的索引项,但是其效率会随着索引项规模的扩大而逐渐下降。

综上所述,索引规模和检索响应速度是索引结构设计中存在的矛盾。在传统的索引结构中,随着索引规模的扩大,带来了诸如索引项总量庞大无法全部载入内存、或检索响应速度随着索引规模的扩大而逐渐下降等的问题。

发明内容

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

本发明的至少一个目的在于提供一种构造索引库的方法和设备以及利用该索引库进行查询的方法,其能够至少克服上述现有技术的部分缺点和不足,以在支持大规模索引数据的同时提高整体检索响应速度。

本发明的另一个目的是提供相应的计算机程序产品和/或计算机可读存储介质。

为了实现上述目的,根据本发明的一个实施例,提供了一种构造索引库的方法,包括:将一个或多个文档中的词汇分类为第一类别或第二类别;以及根据第一类别的词汇来构建单级索引,并根据第二类别的词汇来构建多级索引。

在该构造索引库的方法中,分类步骤可包括:判定词汇是否属于预定词汇集,如果属于则将该词汇分类为第一类别,否则将该词汇分类为第二类别。

在该构造索引库的方法中,预定词汇集可包括高频查询词。

在该构造索引库的方法中,预定词汇集可包括中文词汇集或其子集、英文单词集或其子集、中文符号集或其子集、英文符号集或其子集、常用数字中的任意一种或多种。

在该构造索引库的方法中,还可包括将针对新的一个或多个文档构建的新的单级索引和多级索引分别与索引库中已有的单级索引和多级索引相合并。

在该构造索引库的方法中,构建单级索引可包括以线性表、哈希表或数组的方式构建单级索引。

为了实现上述目的,根据本发明的另一实施例,提供了一种利用如上所述的方法构造的索引库进行查询的方法,包括:将查询关键词分类为第一类别或第二类别;如果该查询关键词属于第一类别,则在索引库的单级索引中检索该查询关键词以获取单级索引数据;以及如果该查询关键词属于第二类别,则在索引库的多级索引中检索该查询关键词以获取多级索引数据。

在该查询方法中,单级索引可被预先存储在访问速度较快的存储器中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010103610.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top