[发明专利]在搜索结果排序中对垃圾的检测有效

专利信息
申请号: 201180027027.4 申请日: 2011-04-19
公开(公告)号: CN102918532A 公开(公告)日: 2013-02-06
发明(设计)人: V·坦科维奇;D·梅耶泽;V·波兹南斯基 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30;G06F9/44
代理公司: 上海专利商标事务所有限公司 31100 代理人: 陈斌
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 结果 排序 垃圾 检测
【说明书】:

背景

计算机用户具有不同的方式来定位可以本地或远程存储的信息。例如,搜索引擎可以被用来使用搜索查询来定位文档。搜索引擎尝试基于特定搜索查询来返回相关结果。

概述

提供本概述是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

各实施例被配置成使用垃圾简档来排序搜索结果。在各实施例中,可以计算诸如垃圾分数之类的排序特征,并且排序特征被排序算法用来响应于搜索查询来排序候选文档。在一个实施例中,创建索引,以促进响应于搜索查询对候选文档的标识。在各实施例中,通过消除或分开地索引当创建文档时可能已经被自动地插入的文档数据来优化索引。在各实施例中,可以通过确定一个文档和已知垃圾文档之间的相似度来进一步计算文档的垃圾分数。在各实施例中,垃圾分数基于该文档的直方图与已知垃圾文档的直方图的比较。直方图可以基于诸如词频和块大小之类的不同的垃圾变量。在各实施例中,可以基于计算出的垃圾分数,将搜索结果标识为可能的垃圾文档,不管搜索结果是否是基于垃圾分数来排序的。这样的作为可能的垃圾的标识可以向用户显示,并可以被维护为可搜索的参数。

通过阅读下面的“详细描述”并参考相关联的图形,这些及其他特点和优点将变得显而易见。应该理解,前面的一般性的说明和下面的详细描述只是说明性的,不会对如权利要求所述的本发明形成限制。

附图简述

图1示出了根据本发明的用于排序搜索结果的系统的实施例。

图2示出了根据本发明的用于排序搜索结果的方法。

图3示出了根据本发明的用于创建索引的方法。

图4示出了根据本发明的用于计算垃圾分数的方法。

图5示出了根据本发明的示例性操作环境。

详细描述

响应于搜索查询返回的垃圾文档会使用户有挫败感并浪费宝贵的时间和精力。在各实施例中,“垃圾”文档可以包括不怎么包含人可读取的文档数据的文档或除由用于创建文档的系统或模板自动地添加的数据以外包含很少文档数据的文档。例如,在企业环境中,垃圾文档可以是生成的,但是不曾添加有意义的内容的文档。这样的文档常常可以具有与特定搜索查询项非常匹配的标题,流行的类型的统一资源定位符(“URL”)和匹配的锚文本。因此,默认的搜索结果排序器可能没有办法区别这样的垃圾文档与具有有用信息的文档,并可能将这样的垃圾文档排序在很高的位置。

如上文简要描述的,此处所公开的各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。一般而言,垃圾简档提供了表示已知的垃圾文档的参考度量或模型。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档有效地提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。

本系统和方法,虽然不如此限制,可以在其中文档语料库通过一个或多个已知系统和/或模板创建的企业环境中特别有用。在各实施例中,本发明的搜索组件可以使用诸如MICROSOFT OFFICE SHAREPOINT系统之类的集成的服务器平台的功能,来计算、收集、存储,以及更新垃圾分数及可以被用作排序判断的一部分的其他排序特征。由于MICROSOFT OFFICE SHAREPOINT系统包括可以用来创建文档的标准的以及可自定义的“模板”,因此,垃圾简档的创建可以得到简化。

在一个实施例中,系统包括搜索组件,该搜索组件包括可以作为计算机可读取的存储介质的一部分被包括的搜索应用程序。搜索应用程序可以被用来部分地基于用户查询来提供搜索结果。例如,用户可以向搜索应用程序输入关键字或其他搜索参数,搜索应用程序可以使用搜索参数来标识候选文档。候选文档可以部分地根据使用垃圾简档被排序,并呈现给用户。

图1是包括索引、搜索,及其他功能的系统100的框图。例如,系统100可包括索引、搜索,及其他应用程序,它们可以被用来作为索引的数据结构的一部分来索引信息并使用已索引的数据结构,搜索相关数据。如下面所描述的,系统100的组件可以被用来至少部分地基于文档的一个或多个垃圾分数,来排序和返回搜索结果。用户可以使用诸如,例如,浏览器或搜索窗口之类的用户界面103,向搜索组件102提交查询。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201180027027.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top