[发明专利]生成用于信息领域的自然语言处理模型在审

申请号：	201280061093.8	申请日：	2012-11-26
公开（公告）号：	CN103999081A	公开（公告）日：	2014-08-20
发明（设计）人：	D·J·麦克洛斯基;D·博尔佩里;D·卡恩斯	申请（专利权）人：	国际商业机器公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京市金杜律师事务所 11256	代理人：	王茂华
地址：	美国纽***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	生成用于信息领域自然语言处理模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及生成自然语言处理模型的领域。具体而言，本发明涉及生成用于信息领域的自然语言处理模型。

背景技术

现代业务分析和过程大量依赖于流过和围绕业务流动的信息。核心业务过程信息包括来自诸如电子邮件、报告文档、演示和即使消息之类的来源的事务数据和文本数据二者。这一信息可以视为流“过”业务的信息并且从经认证的团体内或者在经认证的团体内始发。

这一信息的文本组成的相对重要性已经多年不断增加并且现在被认同为很重要的组成。信息的文本组成这时由于难以创建用于理解这一非结构化的内容的自然语言处理(NLP)模型而大量未被处理。

另外，Web2.0和社交媒体的问世已经产生来自应用的可能有巨大价值的“围绕”业务流动的文本信息的次生泛滥，这些应用的范围广泛，如聊举数例为产品标识新市场、理解品牌情绪和发现影响因素。

高级NLP模型可能对业务具有的影响使得它是目前信息技术行业中的最快增长的需求之一。然而由于自然语言的复杂性，创建这样的模型并不容易。

自然语言处理(NLP)模型是如下术语，该术语用来描述向文本分析引擎的输入的抽象化的集合的术语，从而它可以提取概念(命名的实体、比如“人”引用、“位置”引用等)和那些概念之间的关系(例如“住在”)。有了这些“事实”，可以暴露文本用于编程使用和过程自动化。事实在这一情况下的示例会是“约翰麦克格拉斯住在都柏林主街123号”或者“麦克格拉斯提供主街321号作为他的家庭地址”。

这样的模型很依赖于有待处理的输入的“领域”。没有“一刀切”模型，即使对于比如标识“人”的某些事物，也将在不同的文本来源中有可变的成功程度(由准确率或者精确率/查全率定义)。例如在医疗记录中提及的“人”将很不同于在学术引用中提及的“人”。另外，在医疗记录的情况下，理解“人”的子分类颇为重要，从而NLP系统会向任何具体人引用指派正确的语义子类、例如患者与外科医生、私人内科医生之间的差异等。

开发和维护领域专属NLP模型成本高。有用于开发这样的NLP模型的两种已知方式：1)人工基础创建字列表和上下文规则以及2)基于机器学习的方式，这些方式需要标注的语料库作为输入，机器学习算法在该输入上运行以“学习”特征，这些特征指示语义类向给定的文本跨度的指派。

两种已知方法颇为耗时，前者具有明确并且人工可调的优点，而后者是黑匣子、但是未提供较低的录入禁止，因为对于标注任务仅需领域本身的知识，其中如在前者中那样，也需要下层匹配技术的一些知识。

因此，在本领域中需要解决前述问题。

发明内容

根据本发明的第一方面，提供了一种用于生成用于信息领域的自然语言处理模型的方法，该方法包括：从信息领域的源模型得出自然语言词典的框架；应用语法规则的集合。

从第一方面来看，本发明提供了一种用于生成用于信息领域的自然语言处理模型的方法，该方法包括：从信息领域的源模型得出自然语言词典的框架；应用定义概念和关系的语法规则的集合；基于来自信息领域的参考文档扩展自然语言词典的框架，以提供用于信息领域的自然语言处理模型，其中扩展框架包括对用于概念和关系的术语进行聚类和打分。

优选地，本发明提供了一种方法，其中得出自然语言词典的框架使用信息领域中的优选术语。

优选地，本发明提供了一种方法，其中应用语法规则的集合包括取得主语、谓语、宾语和可变顺序以用于覆盖。

优选地，本发明提供了一种方法，其中扩展框架包括：选择优选术语作为概念或者关系；在来自信息领域的参考文档中执行对优选术语的关键字搜索；以及提供用于优选术语的潜在术语的有序集合。

优选地，本发明提供了一种方法，该方法包括：确定局部n元语法；测量n元语法的一个或者多个度量；以及对n元语法打分。

优选地，本发明提供了一种方法，其中扩展自然语言词典的框架包括：基于来自信息领域的参考文档得出进一步的语法规则；以及对语法规则与用于概念和关系的聚类的术语求交。

优选地，本发明提供了一种方法，该方法包括：使用来自动词的语言类的动词结构以驱动向聚类的术语应用的交集。

优选地，本发明提供了一种方法，其中扩展框架开始于起始概念或者关系，并且向外迭代地移出源模型中的邻近概念或者关系链接；并且通过增大分数来细化概念和关系的扩展的术语。

优选地，本发明提供了一种方法，该方法包括：使用分数阈值来确定用于概念或者关系的最佳术语的散度。

优选地，本发明提供了一种方法，其中扩展框架基于结果动态地改变迭代策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国际商业机器公司，未经国际商业机器公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】