[发明专利]用于搜索引擎检索的原子(ATOM)的选择有效

专利信息
申请号: 201210060934.5 申请日: 2012-03-09
公开(公告)号: CN102682073B 公开(公告)日: 2017-04-12
发明(设计)人: K.M.里斯维克;M.霍普克罗夫特;J.G.班尼特;K.卡亚纳拉曼;T.基林比 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 永新专利商标代理有限公司72002 代理人: 王英
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 搜索引擎 检索 原子 atom 选择
【说明书】:

背景技术

互联网上可得到的信息和内容的数量持续快速地增长。考虑到信息的巨大数量,搜索引擎已经被开发以便于搜索电子文件。特别地,用户可以通过输入包含用户可能感兴趣的一个或多个词语(term)的搜索查询来搜索信息和文件。在接收到来自用户的搜索查询之后,搜索引擎基于搜索查询识别相关的文件和/或网页。因为其实用性,网络搜索(即,针对用户发布的搜索查询找到相关网页和文件的过程)已经可论证地成为当今互联网上最流行的业务。

搜索引擎通过爬取(crawl)文件以及在搜索索引中标引(index)与文件相关的信息来操作。当接收到搜索查询时,搜索引擎使用搜索索引以识别与搜索查询相关的文件。以这种方式使用搜索索引允许针对查询快速地检索信息。没有搜索索引,搜索引擎将需要搜索文件集以寻找相关结果,这将占用无法接受的时间量。

由于互联网持续增长,可以被爬取并在搜索索引中标引的可搜索的文件数量已经变得非常大。结果,对于搜索引擎而言,标引关于所有网络文件的信息是不可行的。例如,将需要过分大的硬件存储量。另外,从非常大的索引中检索结果所需要的处理时间将是不可接受的。虽然如此,搜索引擎力争标引可行的尽量多的文件以提供搜索结果给任意查询,同时是成本有效的(cost-effective)并且能够在终端用户可接受的时间量之内提供相关结果。

发明内容

提供该发明内容以按照简化的形式介绍概念的选择,其在下面的具体实施方式中被进一步描述。该发明内容不意图识别所请求保护的主题的关键特征或者必需特征,也不意图被用于帮助确定所请求保护的主题的范围。

本发明的实施方式涉及用已经从多个文件中识别出的原子来填充(population)一个或多个搜索索引。原子可以是一元模型(unigrams)、n元模型(n-grams)或者n元组(n-tuples)。原子/文件对的列表被生成,这样原子能够例如基于文件标识被识别为来自于特定文件。对于每个原子/文件对,计算一个信息度量,其表示原子与特定文件相关程度的近似度。许多因素被用于计算信息度量,诸如原子出现在文件中的频度、文件中包括原子的词语的接近度、词语的相关程度、通过检查查询日志看看词语是否已经被链接在一起等等。在一些实例中,机器学习工具被使用以计算信息度量。信息度量符合或超过特定阈值的原子/文件对被标引在搜索索引中,而那些不符合的被丢弃并因此不被标引。

附图简述

在下面参考附图详细描述本发明,其中:

图1是适于在本发明的实施方式的实现中使用的示例性计算环境的框图;

图2是图示了根据本发明实施方式的智能漏斗状物(smart funnel)的图,其用于减少文件候选以取得分级的文件集合;

图3是可以使用本发明实施方式的示例性系统的框图;

图4是示出根据本发明实施方式的方法流程图,该方法用于分阶段的处理以返回响应于搜索查询的搜索结果;

图5是示出根据本发明实施方式的方法流程图,该方法用于在预先计算/标引阶段期间生成搜索索引;

图6是示出根据本发明实施方式的方法流程图,该方法用于在匹配阶段期间识别初始的匹配文件集合;

图7是示出根据本发明实施方式的方法流程图,该方法用于在删减(prune)阶段期间从初始的匹配文件集合中删减文件;

图8示出可以使用本发明实施方式的示例性系统;

图9A,9B和9C分别图示了根据本发明实施方式的、在一元模型搜索索引、n元模型搜索索引和n元组搜索索引中条目的例子;

图10是示出根据本发明实施方式的方法流程图,该方法用于使用在多个文件中识别出的原子填充一个或多个搜索索引;

图11是示出根据本发明实施方式的方法流程图,该方法用于使用在多个文件中识别出的原子填充一个或多个搜索索引;和

图12是示出根据本发明实施方式的方法流程图,该方法用于使用在多个文件中识别出的原子填充一个或多个搜索索引。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210060934.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top