[发明专利]使用网络上的文档的偏离点击距离的排序函数无效
申请号: | 200680029645.1 | 申请日: | 2006-08-15 |
公开(公告)号: | CN101243435A | 公开(公告)日: | 2008-08-13 |
发明(设计)人: | D·梅耶左;H·扎拉格扎 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00;G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 张政权 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 网络 文档 偏离 点击 距离 排序 函数 | ||
1.一种其上存储有用于对网络上的文档排序的计算机可执行指令的计算机可读介质,所述计算机可执行指令利用包括一个或多个查询无关分量的排序函数,其中至少一个查询无关分量包括偏离点击距离参数,所述偏离点击距离参数考虑了所述网络上的每个文档的偏离点击距离值。
2.如权利要求1所述的计算机可读介质,其特征在于,一偏离点击距离值被分配给包括总共N个文档的网络上的m个权威文档,其中m大于或等于2且小于N。
3.如权利要求2所述的计算机可读介质,其特征在于,所述分配的偏离点击距离值中的至少两个相互不同。
4.如权利要求1所述的计算机可读介质,其特征在于,所述排序函数还包括至少一个查询无关分量,所述查询无关分量包括考虑了所述网络上的每条边的边值的边值参数,其中一个或多个边值是除1之外的数字。
5.如权利要求4所述的计算机可读介质,其特征在于,所述边值彼此相等并等于除1之外的数字。
6.如权利要求4所述的计算机可读介质,其特征在于,所述边值彼此相等且等于或大于最初被分配给一个或多个权威文档的最高偏离点击距离值。
7.如权利要求4所述的计算机可读介质,其特征在于,所述至少一个查询无关分量包括所述偏离点击距离参数和所述边值参数两者。
8.如权利要求1所述的计算机可读介质,其特征在于,还包括用于将由所述排序函数生成的得分分配给所述网络上的每个文档的计算机可执行指令,所述得分被用来以升序或降序对文档排序。
9.如权利要求7所述的计算机可读介质,其特征在于,所述每个文档的得分是使用以下公式生成的:
其中:
wtf′表示加权的项频率,
N表示所述网络上的文档数目,
n表示包含查询项的文档数目,
wcd表示查询无关分量的权重,
bcd表示点击距离的权重,
bud表示URL深度的权重,
CD表示文档的计算的点击距离或分配的偏离点击距离,
kew表示与边权重相关的调整常数,
UD表URL深度,以及
kcd和k1是常数。
10.如权利要求1所述的计算机可读介质,其特征在于,还包括用于接受由用户输入的搜索查询、进行对网络上的文档的搜索以生成包括多个文档的搜索结果、使用所述排序函数来对所述搜索结果的多个文档排序以生成经排序的搜索结果、以及将所述经排序的搜索结果显示给用户的计算机可执行指令。
11.一种计算系统,所述计算系统包含可在所述计算系统上使用的至少一个应用程序模块,其中所述至少一个应用程序模块包括从如权利要求1所述的计算机可读介质载入到其上的应用程序代码。
12.一种为网络上的文档确定文档相关性得分的方法,所述方法包括以下步骤:
储存网络上的文档以及关于文档的链接信息;
从所述文档和链接信息生成所述网络的表示,所述网络的表示包括表示所述文档的节点和表示所述链接的边;
向所述网络上的至少两个节点分配偏离点击距离值,其中被分配了偏离点击距离值的节点是权威节点;
为所述网络表示种的非权威节点中的每一个计算点击距离,其中给定非权威节点的所述点击距离是从所述给定非权威节点到最接近所述给定非权威节点的权威节点测量的,所述计算步骤得到每个文档的偏离点击距离值;以及
使用每个文档的所述偏离点击距离值来确定所述网络上的给定文档的文档相关性得分。
13.如权利要求12所述的方法,其特征在于,至少两个权威节点具有相互不同的分配的偏离点击距离值。
14.如权利要求12所述的方法,其特征在于,还包括以下步骤:
将边值分配所述表示中的每条边,其中所述边值等于或大于1。
15.如权利要求14所述的方法,其特征在于,每个边值大于被分配给所述权威节点中的任一个的最高偏离点击距离值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680029645.1/1.html,转载请声明来源钻瓜专利网。