[发明专利]在搜索结果排序中对垃圾的检测有效
申请号: | 201180027027.4 | 申请日: | 2011-04-19 |
公开(公告)号: | CN102918532A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | V·坦科维奇;D·梅耶泽;V·波兹南斯基 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 结果 排序 垃圾 检测 | ||
1.一种用于响应于搜索查询来对候选文档进行排序的计算机实现的方法,包括下列步骤:
由至少第一处理器,创建语料库中的多个文档的索引;
使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;
接收搜索查询;
基于所述搜索查询和所述索引,从所述语料库中的所述多个文档中标识候选文档,其中,所述候选文档包括至少所述第一文档;
对所述候选文档进行排序。
2.如权利要求1所述的计算机实现的方法,其特征在于,所述垃圾简档包括至少一个已知垃圾文档的表示,其中,对所述候选文档进行排序包括至少部分地基于所述第一文档的所述垃圾分数来对所述候选文档进行排序。
3.如权利要求1所述的计算机实现的方法,其特征在于,还包括:
为至少所述第一文档,创建至少第一垃圾变量的候选直方图;
其中,所述垃圾简档包括至少第一已知垃圾文档的所述第一垃圾变量的第一参考直方图;以及
其中,计算所述垃圾分数包括将所述候选直方图与所述第一参考直方图进行比较,以确定第一相似度度量。
4.如权利要求3所述的计算机实现的方法,其特征在于,所述垃圾简档包括第二已知垃圾文档的所述第一垃圾变量的第二参考直方图,其中,计算所述垃圾分数包括将所述候选直方图与所述第二参考直方图进行比较,以确定第二相似度度量。
5.如权利要求4所述的计算机实现的方法,其特征在于,计算所述垃圾分数包括下列各项中的至少一项:计算所述第一和第二相似度度量中的最大值,以及计算所述第一和第二相似度度量的平均值。
6.如权利要求1所述的计算机实现的方法,其特征在于,还包括显示已排序的候选文档和显示至少所述第一文档的垃圾状态的步骤。
7.如权利要求1所述的计算机实现的方法,其特征在于:
所述垃圾简档包括自动地生成的数据的词典;
计算所述垃圾分数还包括将来自所述语料库中的所述多个文档的文档数据与自动地生成的数据的所述词典进行比较;以及
创建所述索引包括在所述索引中描绘匹配所述自动地生成的数据的文档数据。
8.如权利要求7所述的计算机实现的方法,其特征在于,标识所述候选文档包括将所述搜索查询与所述索引中的文档数据进行比较,且其中,对所述候选文档进行排序包括判断匹配所述搜索查询的文档数据是否被描绘为匹配所述自动地生成的数据。
9.一种用于响应于搜索查询来对候选文档进行排序的系统,包括:
至少一个处理器;
存储器,所述存储器可操作地连接到所述至少一个处理器并包含指令,所述指令在由所述至少一个处理器执行时,执行包括下列各项的一种方法:
创建语料库中的多个文档的索引;
使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;
接收搜索查询;
基于所述搜索查询和所述索引,从所述语料库中的所述多个文档标识候选文档,其中,所述候选文档包括至少所述第一文档;
至少部分地基于所述第一文档的所述垃圾分数,对所述候选文档进行排序。
10.如权利要求9所述的系统,其特征在于,所述方法进一步包括:
为至少所述第一文档,创建至少第一垃圾变量的候选直方图;
其中,所述垃圾简档包括至少第一已知垃圾文档的所述第一垃圾变量的第一参考直方图;
其中,计算所述垃圾分数包括将所述候选直方图与所述第一参考直方图进行比较,以确定第一相似度度量;
其中,所述垃圾简档包括自动地生成的数据的词典;
其中,计算所述垃圾分数还包括将来自所述语料库中的所述多个文档的文档数据与自动地生成的数据的所述词典进行比较;以及
其中,创建所述索引包括在所述索引中描绘匹配所述自动地生成的数据的文档数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180027027.4/1.html,转载请声明来源钻瓜专利网。