[发明专利]一种用于语言理解的层次语义树构建方法及系统有效
申请号: | 201410216929.8 | 申请日: | 2014-05-21 |
公开(公告)号: | CN104142917B | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 晋耀红;朱筠;刘小蝶 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京三聚阳光知识产权代理有限公司11250 | 代理人: | 张秀民 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 语言 理解 层次 语义 构建 方法 系统 | ||
技术领域
本发明涉及一种自然语言处理领域,具体地说是利用语义知识和词语的位置及搭配而得到的层次语义树构建方法及系统。
背景技术
随着电子信息技术的发展,数字信息资源被越来越多的广泛使用。这就需要机器也能理解自然语言,在“懂”的基础上完成对自然语言的各种处理,如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等等。可见,使得计算机能够进入自然语言的语义深层,是达到上述目的一个条件。要想让机器了解自然语言的意义,首先要了解自然语言语句的结构,语句结构是自然语言的一种基本结构,一般包括语法结构和语义结构。为了更好的对语句的语义进行描述,采用语句结构树是一种简单且清晰有效的方式。语句的结构树类型主要包括两种:一种是句法结构树,一种是语义结构树。句法结构树主要包括短语结构树、依存树等,其自动构建主要在句法标注的基础上,采用基于统计的方法来实现,此类句法结构树的构建不使用或较少使用词语的语义知识。
语义结构树的构建必须使用语义知识,构建语义树是在HNC(概念层次网络)理论的指导下,在没有句法资源的情况下,仅使用语义知识和语词语位置及搭配而进行的,使得计算机能够进入自然语言的语义深层,在理解的基础上进行自然语言的各种处理,实现自然语言语义理解的第一步,为后续应用在信息检索、机器翻译、信息过滤、文本分类等过程中创造条件。
在中国专利文献CN1606004A中公开了一种从文本标识语义结构的方法和装置,形成至少两个候选语义结构,基于所述语义结构的似然性对每一候选语义结构确定语义得分,也基于单词在文本中的位置以及从该单词形成的语义实体在该语义结构中的位置对每一语义结构确定句法得分,将句法得分和语义得分组合来对该文本的至少一部分选择语义结构。该方案中定义实体的模式,该模式包括语义类型和概率、马尔科夫概率和语义规则,这些语义内容的获取需要训练大规模的数据,对文本的领域依赖性强,由于任务的复杂性,取得的效果不一定理想,后续的所有的操作都依赖这一步的结果,其效果将大打折扣。
发明内容
本发明所要解决的技术问题在于现有技术中的标识语义结构的方法需要训练大规模的数据,对文本的领域依赖性强,从而提出一种无需训练的层次语义树构建方法和系统。
为解决上述技术问题,本发明提供一种用于语言理解的层次语义树构建方法及系统,包括如下步骤:
S1、输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识;
S2、根据分词结果,识别出该语句的语义节点;
S3、利用语义知识和词语位置及搭配获得语义节点的层次;
S4、识别该语句中不同层次的语义边;
S5、根据各层次的语义边生成层次语义树。
优选地,所述步骤S1中,对待处理语句进行分词时,按照领域词典和通用词典对待处理语句进行分词。
优选地,所述语义知识包括词语的广义概念类及其子类,所述词语的广义概念类包括动态、静态、物、人、属性、逻辑。
优选地,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的过程,包括:
对于分词后的词语,如果词语的语义知识中有逻辑概念,对该词语标记为L,如果词语的语义知识中有动态概念,标记为V;
对所有标记为L或V的词语,进行LV排除处理;
对所有L标记根据其概念类别进行标记,并判断其是否有后标记,如果有后标记,对后标记的词语标记为L1H,根据上述所有标记生成语义节点。
优选地,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的过程,还包括:将句末标点生成语义节点作为根节点。
优选地,所述步骤S3中“利用语义知识和词语位置及搭配获得语义节点的层次”的过程,包括:
所有L标记和v标记的默认层次都记为0,当出现两个上述标记相邻时,第二个标记的层次减小一层为-1。
优选地,所述步骤S4中“识别该语句中不同层次的语义边”的过程,包括
对所有标记为V的语义节点,进行核心动词识别,生成语块;
对所有标记为L的语义节点,生成语块;
根据语块生成语义边。
优选地,所述进行核心动词识别的过程包括:
排除不能构成核心动词的词语;
其余的词语根据构成和词语本身所具有的特征赋予不同的权值,根据权值的排序结果和位置信息选择核心动词。
优选地,所述根据各层次的语义边生成层次语义树的过程,包括:
选择根节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410216929.8/2.html,转载请声明来源钻瓜专利网。