[发明专利]优先散列索引有效

专利信息
申请号: 201110449840.2 申请日: 2011-12-29
公开(公告)号: CN102542052A 公开(公告)日: 2012-07-04
发明(设计)人: K.M.里斯维克;M.霍普克罗夫特;J.G.贝内特;K.卡尔亚纳拉曼;T.基林比;沈徽 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 刘红;刘鹏
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 优先 索引
【说明书】:

背景技术

因特网上可用的信息和内容的数量继续快速增长。考虑到大量的信息,开发了搜索引擎来便于搜索电子文档。特别地,用户可以通过输入包括对用户而言可能感兴趣的一个或多个项的搜索查询来搜索信息和文档。在接收到来自用户的搜索查询之后,搜索引擎基于搜索查询来识别相关的文档和/或网页。由于其实用性,网络搜索即对于用户发出的搜索查询而查找相关的网页和文档的处理现今可以说已变成因特网上最受欢迎的服务。

搜索引擎通过抓取(crawl)文档以及在搜索索引中为与这些文档相关的信息编制索引来操作。搜索索引时常包括用于在所抓取的文档中找到的各个项的倒排列表(posting list)。每一个倒排列表识别其中找到特定项的文档。当接收到搜索查询时,搜索引擎采用搜索索引来识别与搜索查询相关的文档。以这种方式使用搜索索引允许快速检索用于查询的信息。如果没有搜索索引,搜索引擎将需要搜索文档集来找到相关结果,而这将花费不可接受的时间量。

在执行搜索时,搜索引擎通常采用各种机制来提供搜索查询项的快速查找,以便定位和检索倒排列表。基于树的结构和内存中的散列表是用于这个目的的常见方法的示例。但是,这些现有机制在扩展到非常大量的索引对象时并不是真正有效的,并且查找性能未必是足够的。

发明内容

提供这个概述部分来以简化的形式介绍下面在具体描述部分中进一步描述的概念的选择。这个概述部分并不旨在标识所请求保护主题的关键特征或基本特征,也不旨在用作确定所请求保护主题的范围的辅助手段。

本发明的实施例涉及为搜索查询项提供倒排列表的有效查找的优先散列索引。优先散列索引是其中用于项的散列值基于项重要性而被分布在从最快存储设备到最慢存储设备的具有不同访问速度的存储设备层次上的数据结构。一些存储设备包括条目,其中每一个条目包括具有倒排列表的地址的散列值。在一些实例中,如果倒排列表是足够小的,那么倒排列表被内联(inline)存储。此外,如果该层次中的存储设备具有明显的输入/输出等待时间(例如,硬盘驱动器)以致多次访问该设备将显著影响性能,那么可以将倒排列表内联存储在存储设备上。例如,在一些实施例中,该层次中较高的存储设备可以存储各自包括具有倒排列表的地址的散列值的条目,而最终的存储设备可以与散列值一起内联存储倒排列表。项被组合到搜索列表中,其中每一个搜索列表包括每一个存储设备上用于存储搜索列表中的项的散列值的位置。当接收到搜索查询时,项被识别并被散列,以选择第一设备上的位置和生成对于该项而言是独特的散列值。用于该项的搜索列表的存储设备的位置被顺序读取,以定位与该散列值相匹配的条目和访问用于该项的倒排列表。

附图说明

下面参考附图来详细描述本发明,其中:

图1是适合于在实现本发明的实施例中使用的示例计算环境的框图;

图2是说明根据本发明的实施例用于搜索索引的优先散列索引的图示;

图3是其中可以采用本发明的实施例的示例系统的框图;和

图4是显示根据本发明的实施例用于使用优先散列索引来访问搜索索引中的数据的方法的流程图。

具体实施方式

本发明的主题在此处利用特异性来描述以满足法定要求。但是,该描述本身并不旨在限制这个专利的范围。相反,发明人已考虑:结合其他的现在或未来的技术,所请求保护的主题也可以采用其他的方式来体现,以包括不同的步骤或与这个文档中所描述的相类似的步骤的组合。此外,虽然在这里可以使用术语“步骤”和/或“方框”来暗示所采用的方法的不同元素,但是除非且除了明确地描述个别步骤的顺序之外,这些术语不应被解释为暗示在这里披露的各个步骤之中或之间的任何特定顺序。

本发明的实施例涉及优先散列索引,其是驻留在若干层的存储设备上的数据结构,用于提供搜索索引中项的倒排列表的有效查找。应该注意:“项(term)”在这里被宽泛地用来指示在利用搜索索引进行索引的文档中找到的单个词或多个词(例如,短语、n字尾(n-gram)、n元组等等)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110449840.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top