[发明专利]用于记号空间资料库的多级查询处理系统与方法有效

专利信息
申请号: 201110121210.2 申请日: 2005-08-08
公开(公告)号: CN102142038A 公开(公告)日: 2011-08-03
发明(设计)人: 杰弗里.A.迪安;保罗.G.哈尔;奥尔坎.瑟齐诺格鲁;阿米塔布.K.辛加尔 申请(专利权)人: 谷歌股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市柳沈律师事务所 11105 代理人: 邵亚丽
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 记号 空间 资料库 多级 查询 处理 系统 方法
【说明书】:

本申请是申请日为2005年08月08日、申请号为“200580034128.9”、发明名称为“用于记号空间资料库的多级查询处理系统与方法”的发明专利申请的分案申请。

相关申请

本申请涉及2004年8月13日提出的、申请号为10/917,745、名为“Systemand Method For Encoding and Decoding Variable-Length Data”(“用于对可变长度数据进行编码和解码的系统和方法”)的美国专利申请,以及2004年8月13日提出的、申请号为10/917,739的、名为“Document Compression System andMethod For Use With Tokenspace Repository”(“用于记号空间资料库的文档压缩系统和方法”)的美国专利申请,将这些申请的全部内容并入此处,以作参考。

技术领域

总体上讲,所公开的实施例涉及数据处理系统与方法,具体地讲,涉及用于具有相关索引的文档集合(以下,将其称为“记号(token)空间资料库”)的多级查询处理系统与方法。

背景技术

信息检索系统(例如,搜索引擎)使得查询与根据文档集(例如万维网)所生成的文档的索引相匹配。典型的逆索引(inverse index)包括每个文档中的单词,以及指向它们在文档中的部位的指针。文档处理系统通过使用自动的或手动进程处理从文档集所检索到的文档、页或地址的内容,来制备倒排索引(inverted index)。文档处理系统还可以把文档的内容或内容的各部分存储在资料库中,以供查询处理器在响应查询时使用。

一直存在着对更复杂的搜索和记分技术(scoring technique)的需求,以确保查询结果与查询相关联。某些记分技术可能要求对候选文档进行部分重构,例如确定文档中所发现的查询项或关键字的上下文。令人感到遗憾的是,引入这样复杂的技术可能会由于所涉及的额外的处理和开销而导致搜索性能的降低。

发明内容

所公开的实施例包括与一种用于记号空间资料库的多级查询处理系统与方法。所述多级查询处理系统与方法通过由多层映射方案所简化的递增文档重构而能够多级查询记分,包括“片段(snippet)”生成。在多级查询处理系统的一或多级,使用相关性得分集合,选择作文档子集作为有序列表呈现给用户。该相关性得分集合可以部分地从所述多级查询处理系统的先前级中所确定的一个或多个相关性得分集合中导出。在某些实施例中,多级查询处理系统能够对用户查询执行一或多遍,并且能够使用来自每个遍的信息,扩展用于后一遍中的用户查询,以改进有序列表中的文档的相关性。

具体来讲,根据本发明的一个方面,提供了一种用于在多级查询处理系统中处理查询的方法,所述系统具有一个或多个处理器以及用于存储一个或多个程序的存储器,所述一个或多个程序由所述一个或多个处理器运行以执行所述方法,所述方法包括:由所述一个或多个处理器执行查询的第一级处理,包括:响应于一个或多个查询项,由所述一个或多个处理器从索引中检索第一文档标识符集合;针对相应于第一文档标识符集合的至少一个子集的第一压缩文档集合,基于查询项的存在、项频度和文档流行性中的一个或多个,由所述一个或多个处理器生成相关性得分的第一集合,并且将相关性得分的第一集合存储在存储器中;由所述一个或多个处理器执行查询的第二级处理,包括:针对第一压缩文档集合中的文档,基于记号位置的列表、文档中的查询项之间的距离、文档中的记号的属性以及出现在第一文档集合的文档中使用的查询项周围的文本中的一个或多个,由所述一个或多个处理器生成相关性得分的第二集合,并且将相关性得分的第二集合存储在存储器中;由所述一个或多个处理器从存储器读取相关性得分的第一集合和第二集合,并且基于相关性得分的第一集合和第二集合生成文档的有序列表用于进一步处理;由所述一个或多个处理器从所述文档的有序列表中的文档自动地生成附加查询项;由所述一个或多个处理器使用所述附加查询项,制定新查询;由所述一个或多个处理器处理所述新查询,以从所述索引检索第二文档标识符集合,并且至少部分基于所述附加查询项生成相关性得分的第三集合;以及由所述一个或多个处理器使用所述相关性得分的第三集合来选择用于呈现给用户的顶部文档的集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌股份有限公司,未经谷歌股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110121210.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top