[发明专利]用于搜索引擎检索的原子(ATOM)的选择有效
申请号: | 201210060934.5 | 申请日: | 2012-03-09 |
公开(公告)号: | CN102682073B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | K.M.里斯维克;M.霍普克罗夫特;J.G.班尼特;K.卡亚纳拉曼;T.基林比 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 王英 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索引擎 检索 原子 atom 选择 | ||
1.一种用于使用在多个文件中识别的原子填充一个或多个搜索索引的方法,该方法包括:
识别(1010)将在搜索索引中被标引的文件的集合;
对于文件集合的每个文件,识别(1012)多个原子,该多个原子包含一个或多个一元模型,一个或多个n元模型,和一个或多个n元组;
基于所识别的文件集合和该多个原子,生成(1014)原子/文件对的列表;
为每个原子/文件对计算(1016)信息度量,其中该信息度量表示与特定文件相关的原子的分级;
基于每个原子/文件对的信息度量,选择(1018)与从中识别出原子的特定文件最相关的原子/文件对的子集;以及
使用针对特定文件的原子/文件对的子集填充(1020)搜索索引。
2.权利要求1的方法,其中搜索索引包括一个或多个搜索索引,其中一个或多个搜索索引包括一元模型索引、n元模型索引和n元组索引。
3.权利要求1的方法,其中选择与特定文件最相关的原子/文件对的子集进一步包括:利用删减算法将原子/文件对的数量删减至较小的数量,这样比起其它原子/文件对较不相关的原子/文件对不被标引。
4.权利要求1的方法,其中机器学习工具被用来针对原子/文件对计算信息度量并选择与从中识别出原子的特定文件最相关的原子/文件对的子集。
5.权利要求1的方法,进一步包括:
接收搜索查询;
将该搜索查询改写为一个或多个一元模型、一个或多个n元模型或者一个或多个n元组中的至少一个;以及
使用该改写的搜索查询,访问搜索索引以确定对于搜索查询最相关的文件。
6.一种使用在多个文件中识别出的原子填充一个或多个搜索索引的方法(1100),该方法包括:
从将被标引的多个文件的第一文件中识别(1110)多个原子;
将多个原子的每个原子分类(1112)为一元模型、n元模型或n元组的一个或多个;
针对多个原子的每个原子计算(1114)与第一文件相关的信息度量;
确定(1116)多个原子的每个原子的信息度量是否符合预定的阈值,其中符合预定阈值的原子是对于第一文件最相关的那些;
丢弃(1118)不符合预定阈值的原子;
将对于第一文件符合预定阈值的原子并入(1120)至一个或多个搜索索引中。
7.权利要求6的方法,其中在第一文件中识别的第一原子的信息度量表示第一原子的分级,其关于对于第一文件在解析具有第一原子的搜索查询中该第一原子多么有用。
8.权利要求6的方法,其中对于多个原子的每个原子的信息度量的计算是基于以下内容的一个或多个:在第一文件中原子的频率、在第一文件中的原子的两个或多个词语的接近度、原子的两个或多个词语的相关性、或者如通过检查查询日志所证明的原子的两个或多个词语是否先前已经被链接在一起。
9.权利要求9的方法,进一步包括:
从第二文件中识别多个原子;
将多个原子的每个原子分类为一元模型、n元模型或n元组中的一个或多个;
针对多个原子的每个原子计算关于第二文件的信息度量;
确定多个原子的每个原子的信息度量是否符合预定阈值,其中符合预定阈值的原子是对于第二文件最相关的那些;
丢弃不符合预定阈值的原子;以及
将对于第二文件符合预定阈值的原子并入至一个或多个搜索索引中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210060934.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:制备硼替佐米的方法
- 下一篇:用于将电连接器端接到线缆的装置和方法