[发明专利]来自文档概述的问题概念的本体分类有效
申请号: | 201110063258.2 | 申请日: | 2011-03-07 |
公开(公告)号: | CN102163215A | 公开(公告)日: | 2011-08-24 |
发明(设计)人: | V·瓦德拉曼尼;A·斯里瓦斯塔瓦;T·纳杰姆;M·斯里坎斯;P·瓦达迪;A·C·萨瑞德兰 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 黄嵩泉 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 来自 文档 概述 问题 概念 本体 分类 | ||
技术领域
本发明涉及搜索技术,尤其涉及搜索中的分类技术。
背景技术
尽管计算机系统能够存储大量信息,但用户常常难以找到特定信息或有效地探索感兴趣的特定主题。关于事件或话题的信息通常跨多个电子文档分布,这些电子文档可能被存储在不同的位置。由此,关于事件或话题的事实的断言通常跨多个文档分布,使得要聚集和形成关于该事件或话题的连贯知识单元是困难的。此外,即使在标识了关于事件或话题的事实的情况下,它们通常不被组织成有意义的聚类以形成较高水平的理解和表示。当试图清楚表达可由电子文档语料库回答的话题和问题类别时,这提出了巨大的挑战。
发明内容
提供本发明内容是为了以精简的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明的各实施例涉及标识文档中的断言并逆转这些断言以生成可由文档中的断言所回答的问题。在分析文档或文档语料库时,从文本中标识各实体以及各实体之间的关系。基于所提取的实体和关系来生成关于各实体的事实的断言。逆转这些断言来生成可由这些断言回答的问题。在某些实施例中,围绕问题所涉及的概念和话题来对各问题进行分组。还可以生成便于在话题、概念、问题、断言、文档概述和文档之间遍历的组合图。
附图说明
下面参考附图详细描述本发明,附图中:
图1是适用于实现本发明的各实施例的示例性计算环境的框图;
图2是示出其中可以使用本发明各实施例的示例性系统的框图;
图3是根据本发明的一实施例的示出组合图的遍历的框图;以及
图4是根据本发明的一实施例的示出用于分析文档以标识断言和问题的总体方法的流程图。
具体实施方式
此处用细节来描述本发明的主题以满足法定要求。然而,该描述本身并非旨在限制本专利的范围。相反,发明人设想所要求保护的主题还可结合其他当前或未来技术按照其他方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,尽管术语“步骤”和/或“框”可在此处用于指示所采用的方法的不同元素,但除非而且仅当明确描述了各个步骤的顺序时,该术语不应被解释为意味着此处公开的各个步骤之中或之间的任何特定顺序。
本发明的各实施例一般涉及从文档中提取断言并逆转断言以生成可由所提取的断言回答的相应问题。在分析文档或文档语料库时,从文档文本中提取各实体以及各实体之间的关系。另外,基于所提取的实体和关系来标识断言。每一断言表示关于实体的一个事实。有效断言的集合表示正被分析的文档或文档语料库的概述。
逆转断言来提供可由来自文档或文档语料库的断言回答的一组问题。在某些实施例中,进一步分析这些问题来标识相关概念和话题,并且这些问题可围绕概念和话题来被聚类。生成允许从多个有利点遍历节点的组合图。例如,可以从话题到概念、到问题、到断言、到概述再到文档来遍历该图。可以从任何位置按任何方向来遍历该图。
从本发明的各实施例所生成的信息可以在多个实际应用中使用。一般而言,各实施例提供了可以基于用户意图来遍历的信息的储存库。例如,在将问题提交给搜索引擎时,可以标识由逆转过程所生成的相应问题并且用这些相应问题来确定这些问题的回答以及从中导出这些回答的文档。作为另一示例,可以使用从本发明的各实施例所导出的信息来增强可用来向用户提供知识内容的知识库中的知识。
因而,在一方面,本发明的一实施例涉及存储计算机可用指令的一个或多个计算机可读介质,这些指令在由一个或多个计算设备使用时,使得该一个或多个计算设备执行一种方法。该方法包括标识包括一个或多个文档的文档语料库。该方法还包括提取一个或多个文档的文本内的各实体并基于一个或多个文档的文本来提取各实体之间的关系。该方法还包括基于从一个或多个文档的文本中提取的实体和关系来标识多个断言。该方法又包括逆转该多个断言来生成多个问题。
在另一实施例中,本发明的一方面涉及包括一个或多个处理器和一个或多个计算机存储介质的计算机系统。该计算机系统包括文档分析器、问题生成器和概念/话题引擎。文档分析器分析文档并标识文档的文本中的各实体及其之间的关系,其中文档分析器还基于从文档的文本中标识的各实体和关系来标识各断言。问题生成器逆转这些断言来生成可由这些断言回答的多个问题。概念/话题引擎标识与该多个问题相关联的概念和/或话题并围绕这些概念和/或话题来对这些问题进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110063258.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于沙漠地区汽车空气滤纸及制备方法
- 下一篇:箱板纸防爆线制造方法