[发明专利]通过将历史重要性计算在内来计算文档重要性有效
申请号: | 200880011413.2 | 申请日: | 2008-04-11 |
公开(公告)号: | CN101652771A | 公开(公告)日: | 2010-02-17 |
发明(设计)人: | T-Y·刘;H·李;L·齐;B·高;L·杨 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 顾嘉运;钱静芳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 历史 重要性 计算 在内 文档 | ||
背景
如Google和Overture等许多搜索引擎服务允许对能经由因特网访问的信 息进行搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如 网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标 识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可维 护关键词到网页的映射。该映射可以通过“爬寻(crawl)”web(即,万维网) 来标识每一网页的关键词来生成。为爬寻web,搜索引擎服务可使用根网页列 表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各 种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的 文字、突出显示的文字等等。搜索引擎服务基于网页的关键词与查询的文字匹 配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的 网页的链接以基于可以按照其与查询的相关度、流行度、重要性和/或某一其它 度量来确定的排名的顺序显示给用户。
用于网页排名的三种公知技术是PageRank(页排名)、HITS(“引起超链 接的主题搜索”)和DirectHIT(直接HIT)。PageRank基于网页将具有到重要 网页的链接(即,“引出链接”)的原理。因而,网页重要性基于链接到该网页 (即,“引入链接”)的其它网页的数量与重要性。用简单形式,网页之间的链 接可以由邻接矩阵A表示,其中Aij表示从网页i到网页j的引出链接的数量。 网页j的重要性分数wj可以如以下等式表示:
wj=∑iAijwi
该等式可以通过基于下面的等式的迭代计算来求解:
ATw=w
其中w是网页的重要性分数的向量,并且是AT的主本征向量。
HITS技术另外基于具有到其它重要网页的许多链接的网页本身可能是重 要的原理。因而,HITS将网页的“重要性”分成两个相关属性:“中心(hub)” 和“权威(authority)”。“中心”是由网页所链接到的网页的“权威”分数 来测量的,而“权威”是由链接到该网页的网页的“中心”分数测量的。与独 立于查询来计算网页重要性的PageRank相比,HITS基于结果的网页和通过跟 随引入和引出链接而与结果的网页相关的网页来计算重要性。HITS向搜索引 擎服务提交查询并且使用结果的网页作为初始网页集。HITS向该集合添加作 为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些网 页。HITS随后使用迭代算法计算每一网页的权威和中心分数。权威和中心分 数可以由以下等式来表示:
其中A(p)表示网页p的权威分数而h(p)表示网页p的中心分数。HITS使 用邻接矩阵A来表示这些链接。邻接矩阵由以下等式表示:
向量a和h分,于该集合中所有网页的权威和中心分数,并且可以用 以下等式表示:
a=ATh和h=Aa
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880011413.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大功率LED散热器用散热片
- 下一篇:一种异形直管接头