[发明专利]用于自然语言处理中的依赖指称表达的解疑的方法和系统有效
申请号: | 201410050568.4 | 申请日: | 2014-02-14 |
公开(公告)号: | CN103995806B | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | J·P·布菲;D·K·拜伦;A·皮科夫斯基;E·E·西伯特 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 边海梅 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自然语言 处理 中的 依赖 指称 表达 解疑 方法 系统 | ||
技术领域
本发明一般涉及用于文档的自然语言处理的方法、系统和计算机程序产品。更特别地,本发明涉及用于自然语言处理中的依赖指称表达的解疑的方法、系统和计算机程序产品。
背景技术
文档包含许多形式的信息。例如,配置为句子和段落的文本信息以记叙的形式传递信息。
一些类型的信息以指称的形式给出。例如,文档可包含在文档中重复出现的名称、词语、短语或文本段。许多文档指明替换短语或文本以作为名称、词语、短语或文本段的替代物,并在名称、词语、短语或文本段的第一次出现之后对各随后的出现使用替换文本。
名称、词语、短语或文本段被称为完整表达或完全表达,并且,替换短语或文本被称为依赖指称表达。依赖指称表达是要传递依赖指称表达所替代的完整表达的意思。
自然语言处理(NLP)是有利于在人与数据处理系统之间交换信息的技术。例如,NLP的一个分支属于将人可用语言或形式的给定内容转换成计算机可用形式。例如,NLP可接收内容为人可读形式的文档,并且产生相应的内容是计算机特定语言或形式的文档。
发明内容
示例性的实施例提供用于自然语言处理中的依赖指称表达的解疑的方法、系统和计算机程序产品。至少一个实施例选择在一组文档中的文档的一部分,该部分包含一组依赖指称表达实例。该实施例过滤该部分以通过使用实例的语言特性从一组依赖指称表达实例中识别该实例,该依赖指称表达的实例指称在一组文档中出现的完整表达。该实施例通过定位依赖指称表达在哪里被定义为完整表达的替代物而在一组文档中的一个成员文档中定位完整表达。该实施例使用处理器和存储器,通过使用完整表达解析实例,使得关于完整表达的信息可在所述实例的位置处得到。
附图说明
在所附的权利要求中阐述被认为是本发明的特征的新颖的特征。但是,当结合附图阅读时,参照示例性的实施例的以下的详细的描述,可以最好地理解本发明自身、优选的使用模式及其其它的目的和优点,其中,
图1示出可实现示例性的实施例的数据处理系统的网络的图示;
图2示出可实现示例性的实施例的数据处理系统的框图;
图3示出根据示例性的实施例的可解析的依赖指称表达的几个例子;
图4示出根据示例性的实施例的用于自然语言处理中的依赖指称表达的解疑的示例性配置的框图;
图5示出根据示例性的实施例的自然语言处理中的依赖指称表达的解疑的例子;
图6示出根据示例性的实施例的自然语言处理中的依赖指称表达的解疑的示例性处理的流程图;
图7示出根据示例性的实施例的解析依赖指称表达实例的一个示例性方式的流程图;以及
图8示出根据示例性的实施例的解析依赖指称表达实例的一个示例性方式的流程图。
具体实施方式
从示例性的实施例认识到,经受NLP的文档一般包含依赖指称表达,即,作为在文档中的某个地方出现的一些完整表达的替代物的文本。例如,从示例性的实施例认识到,在一些情况下,完整表达可在文档的开始出现,相应的依赖指称表达的实例散布于整个文档。照应表达是重新提到先行表达在前面提到的实体的表达。照应表达和先行表达均指的是作为指称物的文档外面的某物。
从示例性的实施例认识到,在一些其它的情况下,完整表达可出现于文档的结尾,相应的依赖指称表达的实例散布于整个文档。后指表达是重新提到随后表达提到的实体的表达。后指表达和随后表达均指的是作为指称物的文档外面的某物。
从示例性的实施例还认识到,完整表达和依赖指称表达可能不出现于同一文档中。例如,在诸如与一个或多个附录文档相关的协议文档的一组的一个或多个文档中,协定文档可包含完整表达,并且,协议文档和附录文档可包含相应的依赖指称表达的实例。
从示例性的实施例认识到,给定文档中的任意量的内容(词语距离)和给定的一组文档中的任意量的文档(文档距离)可使依赖指称表达的实例与相应的完整表达分离。在解析依赖指称表达的实例的意思时,除非相应的完整表达也出现于依赖指称表达的实例的附近,否则当前可用的NLP技术是无效或者易于出错的。作为例子,一些当前可用的NLP技术与要在内部解析依赖指称表达的意思的少数句子或段落结合。如果依赖指称表达和完整表达分开例如多于6行或6段,诸如当它们的出现位置在文档中分开几页时,一些当前可用的NLP技术简单地使用依赖指称表达,而不将依赖指称表达解析为相应的完整表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410050568.4/2.html,转载请声明来源钻瓜专利网。