[发明专利]权威性文档识别无效
申请号: | 200580048643.2 | 申请日: | 2005-12-30 |
公开(公告)号: | CN101128822A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 丹尼尔·艾尼奥;吉塔·乔杜里 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 郑立;车文 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权威性 文档 识别 | ||
技术领域
这里描述的实施例通常涉及信息检索,更具体地,涉及一个位置的权威性文档的识别。
背景技术
现代的计算机网络,特别使因特网,可以广泛便捷地应用大量信息。例如,因特网搜索引擎索引了连接到因特网的大量web文档。连接到因特网的用户可以键入简单的搜索查询以快速地定位与该搜索查询相关的web文档。
用户常常对查找与特定位置相关的文档感兴趣。但是,所述位置的权威性文档可能不包含该位置的地址。有时该地址定位在子文档中或者无法分析(如无法索引)的图像中。这使得很难识别权威性文档。
发明内容
根据一个方面,一种包括存储计算机可执行指令的计算机可读介质,包括用于识别与位置相关的文档的指令,用于确定与文档相关的一组信号的指令,以及用于根据所述信号确定所述位置的文档的权威性的指令。
附图说明
结合于此并构成说明书的一部分的附图,说明了本发明的一个实施例,以及结合该描述,解释本发明。其中
图1是说明符合本发明原理的概念的示范性示意图。
图2是在其中符合本发明的原理的系统和方法可以执行的网络的示范性示意图。
图3是根据符合本发明的原理的实施例的图2的客户端或服务器的示范性示意图。
图4是根据符合本发明的原理的实施例,用于确定所述位置的文档的权威性的示范性处理的流程图。
图5是根据符合本发明的原理的实施例,用于说明文档如何被选作候选文档的示范性示意图。
图6是根据符合本发明的原理的实施例,当识别文档的权威性时,需要考虑的信号的示范性示意图。
具体实施方式
以下本发明的详细描述参照附图。在不同附图中相同的参考标记表示相同或者类似的元件。并且以下的详细描述不限制本发明。
概述
图1是说明符合本发明的原理的概念的示范性示意图。考虑局部文档的语料库100。该文档在感觉上是局部的,它们与特定的地理区域相关联,尽管不必是相同的地理区域。例如,与企业登记信息(businesslisting)相关的文档可以被认为是局部文档因为它与特定的企业地址相关联。
可以分析语料库100中的文档以确定它们所关联的位置。例如,假定在组110中的各文档与相同的位置有关。在组110中的每一个文档在某些方面涉及该位置。例如,在组110中的文档可能提及了在该位置的企业,该企业的地址,和/或与该企业相关的电话号码。在该组中的一个文档对于该位置可以比另一个文档具有更高的权威性。例如,相应于在该位置的某餐馆主页的文档被认为较之相应于该餐馆的评论的文档对于该位置具有的更高的权威性。符合本发明原理的系统和方法可以确定与位置相关的文档的权威性。
在这里使用的术语“文档(document)”,可以被更广义地解释为包含任意的计算机可读和计算机可存储的工作产品(work product)。文档例如可以包括:电子邮件、网页、企业名录、文件、文件的组合、一个或者多个具有嵌入到其他文件的链接的文件、新闻组帖子、博客(blog)、网页广告等等。在因特网的内容中,常见的文档是web页。Web页通常包括文本信息以及可以包括嵌入信息(例如元信息、图像、超链接等)和/或嵌入指令(例如Javascript等)。在这里使用的术语“链接(link)”,可以被更广义地解释为包括不同文档之间或相同文档的不同部分之间的引用/参考。
示范性网络配置
图2是在其中可以执行符合本发明的原理的系统和方法的网络200的示范性示意图。网络200可以包括通过网络250连接到多个服务器220-240的若干客户端210。为了简单,已经示出了连接到网络250的两个客户端210和三个服务器220-240。实际上,可以有更多的或者更少的客户端和服务器。而且,在一些例子中,客户端可以执行服务器的功能而服务器可以执行客户端的功能。
客户端210可以包括客户端实体。实体可以定义为一个设备,例如无线电话、个人计算机、个人数字助理(PDA)、便携计算机、或者另一种类型的计算或通信设备、在这些设备上运行的线程或进程、和/或可以由这些设备中的一个执行的对象。服务器220-240可以包括以符合本发明的原理的方式收集、处理、搜索和/或维持文档的服务器实体。
在符合本发明原理的实施例中,服务器220可以包括客户端210可用的搜索引擎225。服务器220-240可以爬取(crawl)文档的语料库(例如,web文档)、索引这些文档,并在文档库中存储与这些文档相关的信息。服务器230和240可以存储或保持可以被服务器120爬取或分析的文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200580048643.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:二次电池的充电装置及方法
- 下一篇:一种治疗肝郁化火型失眠症的内服中药