[发明专利]权威性文档识别无效
申请号: | 200580048643.2 | 申请日: | 2005-12-30 |
公开(公告)号: | CN101128822A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 丹尼尔·艾尼奥;吉塔·乔杜里 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 郑立;车文 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权威性 文档 识别 | ||
1.一种方法,包括:
识别与某个位置相关的一组文档作为候选文档;
确定与所述各候选文档相关的信号;
根据所述信号确定所述各候选文档对于所述位置的权威性;以及
根据所述各候选文档对于所述位置的权威性来处理所述候选文档。
2.根据权利要求1的方法,其中识别一组文档包括:
分析文档语料库中的文档以识别包含与所述位置相关的信息的文本片断。
识别包含所述文本片断的文档作为候选文档。
3.根据权利要求2的方法,其中与所述位置相关的信息包括所述位置的完整或部分地址,与所述位置相关的完整或部分电话号码,或与所述位置相关的企业的完整或部分名称中的至少一个。
4.根据权利要求2的方法,其中识别一组文档进一步包括:
确定由所述候选文档链接到的文档,以及
识别所确定的文档作为候选文档。
5.根据权利要求4的方法,其中识别一组文档进一步包括:
通过去除所述候选文档的部分地址来确定另外文档,以及
识别所述另外文档作为候选文档。
6.根据权利要求1的方法,其中确定与所述候选文档相关的信号包括:
从指向其他一些候选文档的一些候选文档中确定若干外部链接;以及
其中确定所述各候选文档的权威性包括:
对一个候选文档,根据从其他一些候选文档指向该候选文档的外部链接的数目来产生权威性得分。
7.根据权利要求1的方法,其中确定与候选文档相关的信号包括:
识别与指向所述候选文档的链接相关的锚定文本;以及
其中确定所述各候选文档的权威性包括:
对一个候选文档,根据该候选文档是否由那些其锚定文本同与所述位置相关的企业的整个或部分名称相匹配的一个或多个链接所指向来产生权威性得分。
8.根据权利要求1的方法,其中确定与候选文档相关的信号包括:
识别一些所述候选文档的标题;以及
其中确定所述各候选文档的权威性包括:
对一个候选文档,根据与该候选文档相关的标题是否同与所述位置相关的企业的完整或者部分名称相匹配而产生权威性得分。
9.根据权利要求1的方法,其中确定与候选文档相关的信号包括:
识别与一些所述候选文档相关的域名;以及
其中确定所述各候选文档的权威性包括:
对一个候选文档,根据与该候选文档相关的域名是否同与所述位置相关的企业的完整或者部分名称相匹配而产生权威性得分。
10.根据权利要求1的方法,其中确定与候选文档相关的信号包括:
确定一些所述候选文档所关联的位置;以及
其中确定所述各候选文档的权威性还包括:
根据一个候选文档是否与单个位置相关而增加该候选文档的权威性。
11.根据权利要求1的方法,其中所述信号与下述至少一个相关联:
从一些候选文档指向另一个候选文档的外部链接的数目,
与指向一些所述候选文档的链接相关联的、同与所述位置相关的企业的完整或者部分名称相匹配的锚定文本,
与所述企业的完整或者部分名称匹配的一些候选文档的标题,以及
与和所述企业的完整或者部分名称匹配的一些候选文档相关的域名。
12.根据权利要求1的方法,其中所述的信号与和所述候选文档相关的多种不同类型的数据相关联;以及
其中所述方法进一步包括:
加权所述不同类型的数据;
对一些所述候选文档组合已加权的数据;以及
根据所述组合的加权数据为所述一些候选文档赋予权威性得分。
13.根据权利要求12的方法,其中处理候选文档包括:
根据一个候选文档的权威性得分而对其做排名。
14.一种系统,包括:
用于识别与某个企业相关联的一组文档作为候选文档的装置;
用于确定与每一个所述候选文档相关联的多个信号的装置;
根据所述信号确定所述候选文档对于所述企业的权威性的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200580048643.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:二次电池的充电装置及方法
- 下一篇:一种治疗肝郁化火型失眠症的内服中药