[发明专利]搜索索引格式优化有效
申请号: | 200980122470.2 | 申请日: | 2009-05-13 |
公开(公告)号: | CN102057378A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | R·卡萨诺夫;C·C·梅里根;M·佩特立克;A·I·科汉 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杨洁;钱静芳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了一种搜索索引结构,其通过结合为从存储中进行快速检索而优化并且消除专用于短语搜索的数据的索引来扩展典型的复合索引。其他数据以允许计算数据而非存储数据的方式来表示。将可变长度条目与逻辑类别相关联允许从类别推断条目长度而非存储类别长度。使用文档ID之间的增量值而非ID本身生成通过哈夫曼编码或类似的压缩方法来高效地压缩的紧凑的、密集的符号集。在编码之前使用上阈值来从该符号集中移除较大的且由此少见的增量值进一步提高编码性能。 | ||
搜索关键词: | 搜索 索引 格式 优化 | ||
【主权项】:
一种搜索搜索域内的多个文档的方法,所述方法包括:(a)提供(1022)具有一系列连续、长度可变的文档ID增量条目(904)的经压缩的文档ID增量列表(708),对所述多个文档中包含关键字的每一个文档有一个所述文档ID增量条目;(b)提供(1023)具有一系列连续、长度可变的关键字出现计数条目的出现计数列表(710),对所述经压缩的文档ID增量列表(708)中的多个文档中的至少某一些中的每一个有一个所述关键字出现计数条目;以及(c)通过使用所述经压缩的文档ID增量列表(708)并使用所述出现计数列表(710)来搜索(202)所述多个文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200980122470.2/,转载请声明来源钻瓜专利网。