[发明专利]使用传播的文档相关性来训练排名功能有效
申请号: | 200780006713.7 | 申请日: | 2007-02-27 |
公开(公告)号: | CN101390096A | 公开(公告)日: | 2009-03-18 |
发明(设计)人: | 王珏;李明敬;马韦莹;李智伟 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈 斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 传播 文档 相关性 训练 排名 功能 | ||
背景
如Google(谷歌)和Overture(建议)等许多搜索引擎服务提供对能经由因特网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以通过“爬行(crawl)”web(即,万维网)来标识每一网页的关键词来生成。为爬行web,搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键字与查询的文字匹配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于可以按照其与查询的相关度、流行度、重要性和/或其它度量来确定的排名的顺序显示给用户。
用于网页排名的三种公知技术是PageRank(页排名)、HITS(“引起超链接的主题搜索”)和DirectHIT(直接HIT)。PageRank基于网页将具有到重要网页的链接(即,“引出链接”)的原理。因而,网页重要性基于链接到该网页(即,“引入链接”)的其它网页的数量与重要性。用简单形式,网页之间的链接可以由邻接矩阵A表示,其中Aij表示从网页i到网页j的引出链接的数量。网页wj的重要性分数j可以由以下等式表示:
wj=∑iAijwi
该等式可以通过基于下面的等式的迭代计算来求解:
ATw=w
其中w是网页的重要性分数的向量,并且是AT的主本征向量。
HITS技术另外基于具有到其它重要网页的许多链接的网页本身可能是重要的原理。因而,HITS将网页的“重要性”分成两个相关属性:“中心(hub)”和“权威(authority)”。“中心”是由网页所链接到的网页的“权威”分数来测量的,而“权威”是由链接到该网页的网页的“中心”分数测量的。与独立于查询来计算网页重要性的PageRank相比,HITS基于结果的网页和通过跟随引入和引出链接而与结果的网页相关的网页来计算重要性。HITS向搜索引擎服务提交查询并且使用结果的网页作为初始网页集。HITS向该集合添加作为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些网页。HITS随后使用迭代算法计算每一网页的权威和中心分数。权威和中心分数可以由以下等式来表示:
其中a(p)表示网页p的权威分数而h(p)表示网页p的中心分数。HITS使用邻接矩阵A来表示这些链接。邻接矩阵由以下等式表示:
向量a和h分别对应于该集合中所有网页的权威和中心分数,并且可以用以下等式表示:
a=ATh和h=Aa
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780006713.7/2.html,转载请声明来源钻瓜专利网。