[发明专利]从文档表示信息有效
申请号: | 201280032515.9 | 申请日: | 2012-04-25 |
公开(公告)号: | CN104081385B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | H.H.马利克;V.S.巴瓦;H.菲奥尔勒塔;A.拉法特 | 申请(专利权)人: | 汤姆森路透社全球资源公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国专利代理(香港)有限公司72001 | 代理人: | 臧永杰,徐红燕 |
地址: | 瑞士*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 表示 信息 | ||
技术领域
本公开涉及从非结构化信息表示信息,并且更具体地涉及用于自动以结构化格式而从非结构化文档表示信息的系统和方法。
背景技术
现今有主要地以被包括在文档中的非结构化文本数据的形式的越来越多的信息量,其与投资者的决策过程有关。当该信息是大量的时,投资者所需要用以识别术语和领会被包括在这些文档中的语义的努力可能是辛苦的。尽管文档的电子存储已经简化了浏览多重和大文档的过程,浏览大量文本以理解和快速定位感兴趣的信息仍然是困难和耗时的。
例如,企业新闻发布通常在非结构化(例如自由形式)文本中连同附加信息一起识别企业金融事件,诸如红利、每股收益、管理和所有制结构等等。解析该信息以识别感兴趣的项目是耗时的过程。此外,虽然大多数文字处理工具确实提供用于在文档中搜索单独项目的机制,但是这些工具中没有一个提供伴随感兴趣的项目的补充信息。
因此,有用于从非结构化数据提供信息的改进的系统和技术的需要,所述信息诸如事实和事件。
发明内容
公开了用于以结构化格式来表示被包括在非结构化文本文档中的信息的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。
所述系统和技术的各种方面涉及计算概率值和组合概率值以生成分类评分。
例如,根据一个方面,方法包括识别被包括在非结构化文本文档中的事件的属性,其中每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;并且将多个分类器中的至少一个应用于每个所生成的特征。所述至少一个先前使用预定义事件属性所训练的分类器对应于所述所识别的事件属性。
所述方法也包括从由所述至少一个分类器使用概率估计模型所生成的分类器评分来计算概率值,其中所述概率值指示所识别事件属性的似然性,所述所识别事件属性对应于所述预定义事件属性集合中之一;组合与所识别属性相关联的多个所计算的概率值以生成分类评分;并且至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。
在一个实施例中,所述方法此外包括使用至少一个置信度模型来向事件分配置信度评分,比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分,并且基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。
在又一个方面,方法包括访问非结构化文本文档以识别事件和与事件相关联的属性集合,其中所述属性集合与预定义事件属性集合有关,并且生成与所述属性集合相关联的文档特征集合,所述文档特征集合具有比所述属性集合更高数目的集合元素。对于在所述文档特征集合中的第一文档特征,所述方法包括生成第一分类器评分,其中所述第一分类器评分是利用先前已经使用预定义事件属性集合所训练的分类器被生成的,并且基于所述第一分类器评分而使用概率估计模型来计算第一概率值,所述第一概率值指示来自事件属性集合的第一事件属性对应于预定义事件属性集合的似然性。
所述方法也包括,对于在所述文档特征集合中的第二文档特征,生成第二分类器评分,所述第二分类器评分是利用分类器所生成的,并且基于所述第二分类器评分而使用概率估计模型来计算第二概率值,所述第二概率值指示来自事件属性集合的第二事件属性对应于预定义事件属性集合的似然性。
所述方法此外包括使用第一概率值和第二概率值而生成分类评分并且基于所述分类评分而以结构化数据格式从非结构化文本文档表示事件和属性集合。
公开了一种系统,以及包括存储用于实施各种技术的机器可读指令的机器可读媒介的产品。以下更详细地讨论各种实施的细节。
从以下详细描述、附图和权利要求,附加特征和优点将是显而易见的。
附图说明
图1是用于从非结构化文本文档表示信息的示范性基于计算机的系统的示意图。
图2说明用于训练在图1中所示出的基于计算机的系统的示范性方法。
图3说明用于从非结构化文本文档表示信息的示范性方法。
图4说明用于训练图1的基于计算机的系统的示范性用户界面。
在各种图中同样的参考符号指示同样的元件。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汤姆森路透社全球资源公司,未经汤姆森路透社全球资源公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280032515.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置