[发明专利]自然语言处理的本体驱动词典生成和含糊解决系统和方法有效

专利信息
申请号: 201310230797.X 申请日: 2013-06-09
公开(公告)号: CN103488625A 公开(公告)日: 2014-01-01
发明(设计)人: J·E·波斯迪克;J·M·小简西;J·P·凯墨拉;C·M·崔西穆 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/28 分类号: G06F17/28;G06F17/30
代理公司: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 高青
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自然语言 处理 本体 驱动 词典 生成 含糊 解决 系统 方法
【说明书】:

技术领域

本公开总体上涉及语言数据的数据处理,而且尤其涉及本体驱动的自然语言处理。 

背景技术

自然语言处理利用软件来分析并理解人类语言。理解人类语言需要知道一个词或短语代表什么,以及如何以有意义的方式把概念链接到一起。其中实现了这个目的的一种方法是基于词典的注释。词典准备有词的列表,包括常见的词性,例如名词、动词、连词等。然后,词典被用于注释要被处理的短语中的每个词。随后,必须进行后期处理,以便通过利用语法规则来排除冗余的注释。因为语言中的大量可能语法规则,可能需要对每个词应用几百或者几千个规则。 

发明内容

在本公开的一方面中公开了一种用于自然语言处理含糊解决的计算机实现的系统和方法。该系统和方法包括在计算机存储器中存储规定一组语法规则的本体。利用计算机处理器,检索包括要处理的至少一个当前词的短语。通过短语中的当前词根据所述本体所属的可能本体类来注释所述当前词。利用处理器,检索与当前词所属的可能本体类相关联的任何本体规则。基于所述本体规则来排除可能的本体类。留存的可能本体类被确定是当前词的准确本体类。 

在本公开的另一方面中,公开了一种用于从选择的本体分类生成词典以便在自然语言处理中使用的计算机实现的系统和方法。利用计算机处理器接收从选择的本体分类生成词典的请求。利用计算机处理 器检索属于选择的本体分类的所有词实例并汇编到列表中。 

以上仅仅概述了本公开的一种或多种实施例的特征和技术优点,以便可以更好地理解以下具体描述。本公开的附加特征与优点将在下文中描述,这些可以构成本申请权利要求的主题。 

附图说明

本公开参考附图在以下具体描述中进一步描述,附图中: 

图1是说明性自然语言处理含糊解决和基于本体的词典生成器系统的高级表示; 

图2A说明了自然语言处理含糊解决对一个例子含糊词的效果; 

图2B继续说明自然语言处理含糊解决对图2A的例子含糊词的效果; 

图2C继续说明自然语言处理含糊解决对图2A的例子含糊词的效果; 

图3说明了代表性本体库; 

图4说明了用于自然语言处理含糊解决的优选步骤序列; 

图5说明了用于处理含糊解决的自图4的继续步骤序列;以及 

图6说明了用于基于本体的词典生成的优选步骤序列。 

具体实施方式

本申请公开了用于自然语言处理含糊解决和生成基于本体的词典的计算机实现的系统和方法。自然语言处理含糊解决系统和方法利用语言本体而不是过分简单的词典来理解语言。语言本体在本领域中是已知的,但是为了清晰起见将在这里进行简短的讨论(并且更具体地参考以下的图3)。本体创建代表语言结构的分层结构。语言中的广义概念可被表示为本体类,本体类可被进一步细分成本体子类。例如,像“词”这个主要的本体类可被分成像“名词”、“动词”、“形容词”等的子类,这些子类又可被进一步分成诸如“代词”、“单个词的动词”、“多个词的动词”等的子类。因而,语言的整个结构可以通过本 体来表示。本体类可以通过本体关系来关联。例如,“名词”中被称为“代词”的一个本体子类可以作为包括在“名词”类内而与前者关联。类似地,本体类的特征或特性可以作为本体属性存储在本体模型中。根据所代表的语言所使用的实际语法规则,本体规则可与本体类、关系和实例(即,具体的词)相关联。 

本体的使用对自然语言处理含糊解决传达了益处。因为语言的结构通过本体来表示,所以系统不必对含糊的词应用每个可能的语法规则。而是只有与可能的本体类、关系等相关联的规则才需要被检索并应用于词以解决其语法含糊,大大降低了解决词含糊所需的处理时间。通过例如检索与选择的本体类直接关联的每个词实例并把它汇编到列表中,语言本体还可被用于生成传统词典。 

图1是说明性自然语言处理含糊解决和基于本体的词典生成器系统100的高级表示。自然语言处理含糊解决和基于本体的词典生成器系统100优选地包括中央处理单元(“CPU”)105、存储器120、网络设备115和输入/输出设备110。CPU105接收并执行程序指令。存储器120可被提供用于长期和短期存储器(即,随机存取存储器和硬盘储存器),并且为CPU105提供数据存储。网络设备115可以提供到网络的连接性,其中网络可以是例如内联网、外联网或者互联网。输入/输出设备110可以为操作人员提供访问能力,包括例如键盘、鼠标、显示器、触摸屏等设备。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310230797.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top