[发明专利]从半结构化的文本学习事实有效
申请号: | 200680028057.6 | 申请日: | 2006-05-18 |
公开(公告)号: | CN101253498A | 公开(公告)日: | 2008-08-27 |
发明(设计)人: | 赵树彬;乔纳森·T·贝茨 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 郑立;林月俊 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 学习 事实 | ||
本申请涉及下面的申请,其中每个通过引用被包含在此:
美国专利申请第11/097,688号,“确证从多个来源提取的事实”,2005年3月31日提交;
美国专利申请第11/097,690号,“从一组可能的回答中选择对于事实查询的最佳回答”,2005年3月31日提交;
美国专利申请第11/097,689号,“具有来自包括查询项目和回答项目的信息源的片断的事实查询引擎的用户界面”,2005年3月31日提交;
美国专利申请第11/142,740号,“合并事实数据库中的对象”,2005年5月31日提交;
美国专利申请第11/142,748号,“用于保证事实库的内部一致性的系统”,2005年5月31日提交;
美国专利申请第11/142,765号,“识别一组事实的一致的主题”,2005年5月31日提交;
技术领域
所公开的实施例总体上涉及事实数据库。具体地,所公开的实施例涉及从包括在半结构化的文本中所提供的事实信息的文档学习事实。
背景技术
万维网(也被称为“Web”)和在万维网中的网页是事实信息的巨大来源。用户可以查看网页来获得对于事实问题的回答,所述事实问题诸如“波兰的首都是哪里”或者“乔治华盛顿的生日是哪天”。在网页中包括的事实信息可以被提取并存储在事实数据库中。
可以通过自动化的过程来进行从网页提取事实信息。然而,此种自动化过程并不完美。它们可能遗漏某些事实信息和/或将非事实信息误识别为事实信息并将其提取。而且,所述过程可能提取错误的事实信息,因为在网页中的信息在一开始就是错误的或者所述自动化过程误解释了网页中的信息。所遗漏的事实信息减少了事实数据库的覆盖范围,并且错误的事实降低了事实数据库的质量。
发明内容
按照本发明的一个方面,一种学习事实的方法包括:访问具有名称和一个或多个种子属性值对(seed attribute-value pair)的对象;识别与所述对象名称相关联的一组文档,在所述组中的每个文档具有所述对象的至少第一预定数量的种子属性值对;对于在所识别的组中的每个文档:在所述文档中识别与在所述文档中的种子属性值对相关联的上下文模式;确认所述文档包括至少第二预定数量的与所述上下文模式匹配的附加内容实例;并且,当所述确认成功时,从匹配所述上下文模式的相应内容实例提取属性值对,并且将所提取的属性值对合并到所述对象中。
附图说明
图1图解了按照本发明的一些实施例的网络。
图2是图解按照本发明的一些实施例的用于学习事实的过程的流程图。
图3图解了按照本发明的一些实施例的在事实库中的对象和相关联的事实的数据结构。
图4图解了按照本发明的一些实施例的文档处理系统。
在全部附图中,相同的附图标记表示对应的部分。
具体实施方式
可以通过引导过程来验证在事实库中的事实,并且发现和提取附加事实。以与对象相关联的一个或多个种子事实开始,识别与所述对象相关联并且包括至少预定数量的种子事实的文档。识别围绕这些文档中的种子事实的上下文模式。使用所述上下文模式,找到文档中的具有相同的上下文模式的其它内容。从具有同一上下文模式的其它内容识别事实。所识别的事实可以被加到事实库,或者用于验证已经在事实库中的事实。换句话说,通过引导来学习的过程使用已经在事实库中的事实来验证事实,并且找到附加事实加到事实库中。
图1图解了按照本发明的一些实施例的网络100。网络100包括一个或多个文档主机102和事实库引擎106。网络100也包括耦接这些部件的一个或多个网络104。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680028057.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:Ti的制造方法和制造装置
- 下一篇:1-甲氧基-2-丙醇的制备方法