[发明专利]自然语言理解系统及方法有效

专利信息
申请号: 201310316262.4 申请日: 2013-07-25
公开(公告)号: CN103440234B 公开(公告)日: 2017-03-01
发明(设计)人: 吴及;贺志阳;吕萍;何婷婷 申请(专利权)人: 清华大学;科大讯飞股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京维澳专利代理有限公司11252 代理人: 王立民,吉海莲
地址: 100084 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自然语言 理解 系统 方法
【说明书】:

技术领域

发明涉及自然语言处理技术领域,具体涉及一种自然语言理解系统及方法。

背景技术

人工智能技术发展由来已久,而作为人工智能领域中最重要方向之一的自然语言理解技术也一直是研究的热点,可以说,让计算机理解自然语言是人类一直以来的梦想。目前,自然语言理解技术主要采用基于规则和基于统计两大类理论技术。基于规则的自然语言理解系统构建相对复杂,主要面对受限领域的理解问题。而基于统计的方法逐步成为自然语言处理领域的主流方法,通常适于在大量数据的基础上进行浅层语义理解,而对于深层语义问题往往无法处理。

传统的基于规则的自然语言理解系统可以实现对自然语言的深层理解。对于一个给定的文本输入,其处理流程通常包括以下三个步骤。

(1)词义分析:主要目的是对句子中的词汇提取语言学信息,获取词汇的词义。涉及分词、词性标注、命名体识别等等技术,同时在词义处理上需要词义相关的知识库的支持,对此语言专家已经做出了巨大努力,比如已有的知识库“知网”、《同义词词林》等等。

(2)句法分析:主要目的是对句子或短语的结构进行分析,获取词汇、短语在句子中的语法功能和相互关系,常用的句法分析方法包括上下文无关文法分析和依存文法分析等等。

(3)语义分析:主要目的是要获取句子要表达的实际意义,该部分是自然语言理解系统的核心。深层自然语言理解系统通常需要在该阶段构建相关语义理解的规则,这些规则主要是依赖语言学专家的语言知识和领域知识密切相关。一方面要定义语义项,另一方面要定义从词义、句法结构等信息至语义项的语义转换规则库。对于一个给定的文本输入,经过词义分析、句法分析之后,利用语义转换规则库最终实现获取语义的目的。

传统的基于规则的自然语言理解系统主要涉及词义分析、句法分析和语义分析三部分,各部分都涉及专家知识规则、不同知识库的利用,虽然可以实现对自然语言的深层理解,但依然存在无法克服的缺点,主要有以下几点:

(1)系统复杂,以上三部分涉及分词、词性标注、命名体识别、句法分析、词义消歧、语义角色分析等等众多技术点,每一项技术的性能不足都有可能对整个系统的性能造成较大影响,系统实现和维护难度都较大。

(2)规则的构建严重依赖于语言学专家知识,而该方面的知识资源往往是有限的甚至是难以获取的。

(3)现有方案的可推广性不强,难以处理自然语言错综复杂的变化,对于实际应用中的海量数据理解往往效果不佳。

发明内容

本发明实施例提供一种自然语言理解系统及方法,以满足用户针对海量文本数据的深层语义理解的需求。

为此,本发明提供如下技术方案:

一种自然语言理解系统,包括:

网络库构建模块,用于预先建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;

接收模块,用于接收用户输入的自然语言;

文本内容获取模块,用于获取所述自然语言对应的文本内容;

匹配模块,用于将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;

语义确定模块,用于获取并输出所述匹配路径上的语义信息。

优选地,所述网络库构建模块包括:

设置单元,用于获取用户设置的句文法规则;

编译单元,用于对所述句文法规则进行编译,生成有向图文法网络;

存储单元,用于将所述有向图文法网络存储到有向图文法网络库中。

优选地,不同的有向图文法网络对应不同应用类型的文法规则;所述系统还包括:

选择模块,用于确定用户选择的自然语言的应用类型;

所述匹配模块,具体用于将所述文本内容与对应所述应用类型的有向图文法网络进行匹配,得到匹配路径。

优选地,所述选择模块,具体用于通过按键方式或菜单方式确定用户选择的自然语言的应用类型。

优选地,所述匹配模块包括:

切分单元,用于对所述文本内容按字切分,所述字包括汉字、字母、数字;

字匹配单元,将所述有向图文法网络的起始节点作为切分得到的第一个字的匹配起始节点,对切分得到的每个字,依次按以下方式与对应所述应用类型的有向图文法网络进行匹配:从所述匹配起始节点的出弧中查找弧上记录的字与当前待匹配的字相同的弧,并将查找出的弧的终止节点作为下一个待匹配的字的匹配起始节点;

匹配路径获取单元,用于根据所述字匹配单元的匹配结果,得到对应所述文本内容的完整匹配路径。

一种自然语言理解方法,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;科大讯飞股份有限公司,未经清华大学;科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310316262.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top