[发明专利]跨Web图传播信号有效
申请号: | 201210037892.3 | 申请日: | 2012-02-20 |
公开(公告)号: | CN102693264B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | T.W.芬利;H.D.M.杜亚特;B.米哈;戚德虎;T.H.吉布斯;S.穆图克里什南 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 王英 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | web 传播 信号 | ||
1.一种将来自相关文件的术语添加到目标文件的文件描述的方法,该方法包括:
确定在所述相关文件中发现的术语不匹配过滤标准,其中匹配所述过滤标准的术语未添加到目标文件的文件描述,其中所述目标文件的文件描述包括在与所述目标文件相关联的多个信号流内的术语,其中因为所述目标文件链接到所述相关文件,所以所述相关文件是相关的;计算所述术语的相似性得分,其中所述相似性得分基于所述目标文件的术语与所述相关文件的术语之间的余弦相似性;
基于所述相关文件的静态排序来计算所述术语的来源可信度得分,其中所述静态排序基于所述相关文件的独立流行性得分;
基于在链接中使用的术语与所述术语之间的相似性来计算所述术语的确证得分;
基于所述术语当前是否与通过其他来源的文件描述相关联来计算所述术语的独特性得分;
基于所述相似性得分、来源可信度得分、所述确证得分和所述独特性得分来计算所述术语的术语得分;以及
因为所述术语得分高于阈值得分,所以将所述术语与所述文件描述相关联。
2.根据权利要求1所述的方法,其中,所述过滤标准包括被排除的常见词语的列表。
3.根据权利要求1所述的方法,其中,当所述目标文件链接到大于阈值数量的其他文件时,所述过滤标准从所有相关文件排除术语。
4.根据权利要求1所述的方法,其中,所述相似性得分也基于所述术语与在从文件到所述目标文件的链接中使用的一个或多个术语之间的相似性。
5.根据权利要求1所述的方法,其中,所述静态排序基于所述相关文件的垃圾信息得分。
6.根据权利要求1所述的方法,其中,计算所述术语的术语得分还包括针对所述相似性得分、所述来源可信度得分、所述确证得分和所述独特性得分中的每一个使用加权因子。
7.根据权利要求1所述的方法,其中,通过对针对到文件的链接中的多个术语的每一个计算的术语得分排序来确定所述阈值得分。
8.一种用于将来自相关文件的术语与目标文件的文件描述相关联的方法,其中所述相关文件通过或者向前或者向后链接关系而与所述目标文件相关,且其中所述文件描述用于确定所述目标文件是否应响应于查询作为搜索结果而返回,所述方法包括:
计算术语的相似性得分,其中所述相似性得分基于所述目标文件的术语与相关文件的术语之间的相似性;
基于所述相关文件的静态排序来计算所述术语的来源可信度得分,其中所述静态排序基于所述相关文件的独立流行性得分;
基于在从其他文件到所述相关文件中使用的术语的链接中使用的术语与所述术语之间的相似性来计算所述术语的确证得分;
基于所述术语当前是否与通过其他来源的文件描述相关联来计算所述术语的独特性得分;
基于所述相似性得分、来源可信度得分、所述确证得分和所述独特性得分的加权组合来计算所述术语的术语得分;以及
因为所述术语得分高于阈值得分,所以将所述术语与所述文件描述相关联。
9.根据权利要求8所述的方法,其中所述方法还包括确定在所述相关文件中发现的术语不匹配过滤标准,其中匹配所述过滤标准的术语未添加到所述文件描述,其中所述过滤标准包括被排除的常见词语的列表。
10.根据权利要求8所述的方法,其中所述方法还包括使用机器学习算法生成所述术语得分的权重。
11.根据权利要求8所述的方法,其中使用余弦相似性来计算所述相似性得分。
12.根据权利要求8所述的方法,其中计算所述术语的术语得分还包括针对所述相似性得分、所述来源可信度得分、所述确证得分和所述独特性得分中的每一个使用加权因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210037892.3/1.html,转载请声明来源钻瓜专利网。