[发明专利]搜索索引格式优化有效
申请号: | 200980122470.2 | 申请日: | 2009-05-13 |
公开(公告)号: | CN102057378A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | R·卡萨诺夫;C·C·梅里根;M·佩特立克;A·I·科汉 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杨洁;钱静芳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 索引 格式 优化 | ||
背景
在由多个文档组成的搜索域内搜索关键字或相似的数据项通常涉及使用索引。通常,该索引是将关键字与文档相关联的倒排索引。
在搜索索引本质上是通用的情况下,它必须支持各种类型的搜索。一个常见示例是关键字搜索,其中用户提供一个或多个关键字或值,并且搜索结果是搜索域内包含所有关键字的所有文档。另一示例是短语搜索,其中用户提供由两个或更多单词以特定顺序组成的短语。在这种情况下,搜索结果是来自搜索域中包含恰如所提供的短语的短语(即,所有单词相邻且以相同的顺序)的所有文档。支持短语查询的索引必须包含比不支持短语查询的索引多得多的数据,因为它必须包括单词每一次出现在文档内的位置。
为了满足用户需求,搜索必须既快速又准确。在索引层面,这引发了竞争的需求。为了精确索引必须是完整的,但这驱动了对较大索引的需求。为了快速访问索引必须是较小的,但这驱动了消除数据的需求。可以使用压缩方案来减少必须读入的数据量,但是这可能不足以满足用户对快速结果的需求。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于确定或限制所要求保护的主题的范围。
此处所公开的主题的各方面涉及搜索索引结构,其中使用对预先存在的结构的扩展来优化非短语搜索。该优化包括消除关于文档内关键字出现的位置的信息。
其他方面涉及通过以可以计算而非存储索引的方式构造索引来消除数据。将可变长度出现计数字段与逻辑类别相关联以允许从类别推断字段大小而非存储字段大小。在类别内和跨类别使用连续符号值允许计算符号值而非将其存储在类别中。对类别内的符号条目进行排序并且在编码表中匹配该排序允许计算对应于代码的符号而非存储该符号。
以下描述的方法可被实现为计算机进程、计算系统、或者诸如计算机程序产品等制品。计算机程序产品可以是计算机系统可读并编码了用于执行计算机进程的指令的计算机程序的计算机存储介质。计算机程序产品还可以是计算系统可读并编码了用于执行计算机过程的指令的计算机程序的载体上的传播信号。
对以上概述的更全面的理解可通过参考以下简要概述的附图、以下对本发明的各实施例的详细描述以及所附权利要求书来获得。
附图简述
图1示出了复合搜索索引的结构的一实施例。
图2示出了用于执行多单词、非短语查询的方法的一实施例的高级流程图。
图3示出了用于执行短语查询的方法的一实施例的高级流程图。
图4示出了内容索引扩展的顶层结构的一实施例。
图5示出了用于压缩表页面的结构的一实施例。
图6示出了用于类别描述符的结构的一实施例。
图7示出了用于数据页面的结构的一实施例。
图8示出了用于页面目录条目的结构的一实施例。
图9示出了用于文档ID比特流条目的结构的一实施例。
图10示出了压缩过程的一般流程。
图11示出了解压过程的一般流程。
详细描述
本详细描述是参考附图做出的,附图构成了详细描述的一部分,并且附图通过说明示出了具体实施例。足够详细地描述这些实施例以允许本领域的技术人员实践以下所教导的内容,并且应该理解可以使用其他实施例,并且可以作出逻辑、机械、电子和其他改变而不背离本发明主题的精神或范围。以下详细描述因此不是限制性的,且其范围仅由所附权利要求来限定。
概览
本发明针对在搜索域内搜索文档(或文件)集以找到与用户最相关的文档。搜索通常涉及从用户获取一组关键字以指示搜索并且然后标识搜索域内匹配这些关键字的所有文档。在试图标识这些候选文档时,搜索引擎可以在文档的正文或文档的特定部分或特性(例如标题、摘要等)内查找关键字。
所得的候选文档集包含来自搜索域的可能相关的所有文档。接着可以将排序算法应用到候选文档以预测文档与用户的相关性。接着通常以预测的相关性的降序向用户呈现候选文档。
这种类型的搜索的实施例通常利用将关键字与文档关联的倒排索引结构。参考图1,可以看出这种索引100可以由若干组件组成。本发明的主要兴趣是内容索引102和内容索引扩展106。虽然基本范围索引104和复合范围索引108对于总体搜索过程是重要的,但是它们不直接与本发明相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980122470.2/2.html,转载请声明来源钻瓜专利网。