[发明专利]具有分层存储的索引的搜索引擎有效

专利信息
申请号: 200480033085.8 申请日: 2004-11-09
公开(公告)号: CN101189602A 公开(公告)日: 2008-05-28
发明(设计)人: 克努特·玛格纳·里斯维克;耶格威·阿舍米;托尔·埃格;哈瓦德·派特森 申请(专利权)人: 奥弗图尔服务公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 代理人: 王怡
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 具有 分层 存储 索引 搜索引擎
【说明书】:

技术领域

发明涉及搜索引擎,更具体地涉及将搜集到(crawled)的文档映射到多个分层中,然后按照分级方式搜索那些分层的搜索引擎。

背景技术

万维网(“WWW”)是包括可以经互联网访问的数十亿个网页的分布式数据库。搜索和索引这些网页以产生响应于用户查询的有用结果一直都是个难题。通常用于搜索WWW的设备是搜索引擎。维护有效的搜索引擎是很困难的,因为WWW是在不断地变化的,每天有数百万个网页被添加,而且现有网页也在连续不断地变化。此外,执行搜索的成本通常直接对应于被搜索的索引的大小。为了处理WWW中的大量数据,大多数搜索引擎都是分布式的并且使用复制和分割技术(下面会进行讨论)以缩减文档的数量。

图1中示出了典型的现有技术的搜索引擎50。利用采集器102访问来自互联网或其它源100的网页。采集器102集合来自源100的文档以确保这些文档可被搜索。有很多用于采集器的算法,并且在大多数情况下,这些采集器顺着已知的超文本文档中的链接来获得其它文档。采集器120所获取的网页被存储在数据库108中。之后,索引器104为这些文档建立索引。索引器104为数据库108中的文档建立可搜索的索引。用于建立索引的典型的现有技术方法包括倒排文件、向量空间、后缀结构及这些方法的混合。例如,每个web网页可以被分解成网页上的词和每个词各自的位置。然后利用这些词和它们各自的位置来为网页建立索引。然后将整个数据库108的主索引分解成多个子索引(下面将讨论)并且将每个子索引发送给搜索节点组106中的搜索节点。

在使用中,用户112将搜索查询输入到调度器110。调度器110应允组106中的一列搜索节点执行查询并且将查询转发给那些被选择的搜索节点。被应允的一列搜索节点要确保每个分区都被搜索一遍。搜索节点组106中的搜索节点搜索由索引器104所产生的主索引中的各个部分并且将分类后的搜索结果与文档标识符和分数一起返回给调度器110。调度器110合并接收到的结果以产生显示给用户112的按相关分数分类的最终的列表。相关分数是查询本身和所产生的文档类型的函数。用于相关的因素包括:诸如链接基数(cardinality)和网页性质之类的文档的静态相关分数;诸如标题、元数据和文档头部之类的文档的高级部分;诸如外部引用和引用“级别”之类的文档的权威性(authority);以及诸如文档中的查询词频、全局性词频以及文档内词的相对距离之类的文档统计信息。

现在参考图2,其示出了搜索节点组106。为了说明,用矩阵的形式示出了组106,其被集合在列122a、122b等和行124a、124b等中。在每个搜索节点列122中,为每个搜索节点复制同一套索引。例如,列122a行124a中的搜索节点与列122a行124b中的搜索节点包括同一套索引子集。在每个搜索节点行124中,使用不同的索引子集。索引被等分以拆分用于搜索的时间量。

例如,列122a行124a中的搜索节点包括与列122b行124a中的搜索节点不同的索引子集。在每个搜索节点中,“I”表示用于整个数据库108的索引,“S”对应于搜索节点,“Sn(In)”表示搜索节点n持有整个索引I的子索引n,并且“Snm(In)”表示复制编号为m的搜索节点n持有整个索引I的子索引n。

来自调度器110的每个查询被发送给各个搜索节点以使得每个分区中的单个节点被查询。例如,行124a、124b等中的所有节点都被查询,因为这些节点的组合表示总索引。即组120中的每一行都是包括整个索引的所有分区的一组搜索节点。得到的结果被调度器110合并,生成来自该组的完整结果。通过按上述方式分割数据,数据量被缩减了。例如,如果有n列,则每个节点的搜索时间基本上被减少了n倍-除去调度器110用于合并结果的时间。

通过复制搜索节点,提高了每个索引的查询处理速度。在图2中,每一列的所有搜索节点都持有相同的索引。这使得调度器110在选择一组搜索节点来处理输入查询时可以在每个索引分区的列中的节点之间轮换。

但是,发明人已经确定在典型的搜索引擎中存在倾斜度非常大的搜索查询分布。例如,最上面的25个查询可以占到总查询量的1%。因此,将主索引等分成更小的子索引不能得到最佳结果。

因此,在本领域中需要能够考虑搜索查询的分布来组织其文档和索引的搜索引擎。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥弗图尔服务公司,未经奥弗图尔服务公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200480033085.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top