[发明专利]在数字图书馆中所采用的检索系统和检索方法有效

申请号：	200610072075.6	申请日：	2006-04-06
公开（公告）号：	CN101051309A	公开（公告）日：	2007-10-10
发明（设计）人：	廖祥文;孙健;王斌;杨东波;程学旗	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30;H04L29/06
代理公司：	中科专利商标代理有限责任公司	代理人：	朱进桂
地址：	100080北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数字图书馆采用检索系统检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息检索领域，更具体地，涉及一种在数字图书馆中所采用的检索系统和检索方法，能够高效地进行检索且易于扩展，并且能应用于具有海量数据和大规模并发访问的数字图书馆。

背景技术

当前，有很多技术可用于构建数字图书馆。一般的数字图书馆采用数据库方法，该方法能够方便快捷地构建数据规模比较小的图书馆系统。但是当数据规模增长到TB级时，其索引规模十分庞大，检索速度低，无法满足当前信息爆炸式增长的要求。另一方面，当用户并发查询请求量增长时，这些技术无法灵活扩展，难以适应不断增长的用户需求。

当前，还存在被一些著名的商业搜索引擎所采用的信息检索技术。这些技术通常采用采集器从互联网(INTERNET)上自动抓取网页，且采用索引技术为网页进行索引。在这些技术中，典型地使用倒排表(Inverted List)，并基于网页特点进行排序且返回检索结果，为用户提供秒级的检索服务。

然而，图书检索有其自身的特点：与自动抓取的Web数据不同，图书馆的数据为经过加工的质量较高的结构化数据，其数据内容更为丰富；另外，Web检索只是针对网页平面内容进行检索，而图书检索系统需要更深层次的字段级检索；此外，Web检索更为注重前几十个检索结果的准确性，而图书检索要求查全、查准，且要求长期有效的检索。

目前的商业搜索引擎没有充分考虑到数字图书馆服务的这些特点，而且对于硬件资源的要求很高，这对于目前作为公共服务的图书馆来说，是难以做到的。

随着近年来图书馆的发展和馆藏数字化资源的不断丰富，数字图书馆已经拥有大量的数字资源，并需要通过互联网对外提供服务。这就对数字图书馆建设提出了一个挑战：如何面临海量元数据和服务于全世界需求者来构造一个检索系统。因此，人们迫切需要一种高效率、可扩展的数字图书馆构建方法，该方法必须满足图书检索查全、查准的要求，且能够随着数据增长、用户并发查询的增长而进行扩展，并且能处理多语种数据源。

发明内容

因此，本发明的目的是提出一种在数字图书馆中所采用的检索系统和检索方法，能够高效地进行检索且易于扩展，并且能应用于具有海量数据和大规模并发访问的数字图书馆。

为了实现以上目的，本发明提出了一种在数字图书馆中所采用的检索系统，包括：包含一个或多个检索控制器的检索控制器层，用于将来自用户的用户查询转发到检索服务器层，并对来自检索服务器层的相应检索结果进行处理以返回给用户；包含一个或多个检索服务器的检索服务器层，用于存储数字图书馆的核心索引数据，并针对所述用户查询首先在所述核心索引数据中执行检索以获取检索结果，而在核心索引数据中无法获取检索结果的情况下，则通过访问索引服务器层以获取检索结果，并将所获得的检索结果提供给检索控制器层；以及包含一个或多个索引服务器的索引服务器层，用于存储数字图书馆的所有索引数据，以便通过检索服务器层的访问从所述所有索引数据中检索出相应的索引以获取检索结果。

优选地，所述检索系统还包括：分发服务器层，用于对来自用户的用户查询进行负载均衡处理。

优选地，所述负载均衡处理采用基于IP层的负载分发、基于传输层的负载分发、基于应用层的负载分发来实现。

优选地，所述基于IP层的负载分发包括基于IP层的Round-Robin方式。

优选地，由所述检索控制器层对来自检索服务器层的相应检索结果进行处理通过对所述相应检索结果进行合并并生成摘要来实现。

优选地，所述检索控制器层对检索结果用XML格式进行组织。

优选地，所述检索服务器层中的检索服务器按照对应于不同的图书数据库分别建立相应的核心索引的方式来形成相应的检索服务器组，并且所述索引服务器层中的索引服务器按照对应于不同的图书数据库分别保存相应的索引的方式来形成相应的索引服务器组。

优选地，所述核心索引按照索引的倒排链长度处于两个阈值之间的方式来建立。

优选地，所述核心索引根据索引的历史出现频度来建立。

优选地，所述核心索引根据与用户访问行为特征相对应的核心词汇来建立。

优选地，当用户并发查询请求增长时，检索控制器和检索服务器组的数目以线性的方式增加。

优选地，当数字图书馆的数据规模增加时，检索控制器和索引服务器的数目以线性的方式增加。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。