[发明专利]一种汉语二分结构的句法分析方法有效

专利信息
申请号: 201810203192.4 申请日: 2018-03-13
公开(公告)号: CN108491381B 公开(公告)日: 2021-05-14
发明(设计)人: 谷波;王瑞波;李济洪 申请(专利权)人: 山西大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/289
代理公司: 太原晋科知识产权代理事务所(特殊普通合伙) 14110 代理人: 任林芳
地址: 030006 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 汉语 二分 结构 句法 分析 方法
【说明书】:

本发明公开了一种汉语二分结构的句法分析方法,从汉语成分的内部结构出发构建句法树,将句子成分的内部限定为二分结构,更加适合汉语的句法特点;使用简洁高效的哈夫曼编码来表示和描述,易将原始的句子和句法树的表示相分离,节省存储空间,也便于计算机处理;递归使用基于RNN的序列标注器进行汉语的句法分析,减少了句法分析对于其它资源的依赖,也降低了使用自动词性标注工具所带来的错误积累;对词的间隔标记的RNN模型中使用了hinge‑loss损失函数,提高了句法分析的准确率和算法的运行效率。

技术领域

本发明涉及句法分析领域,特别是涉及一种汉语二分结构的句法分析方法。

背景技术

在当前人工智能高速发展的阶段,计算机对于自然语言的深度理解越来越受到重视。因为只有计算机能能够真正理解的人类的自然语言,才能说计算机拥有了智能,人工智能技术才能更好的服务人类。目前的自然语言处理和自然语言理解技术还远未达到这一要求,但是自然语言处理的一些基础任务,比如在汉语中的分词,词性标注,命名实体识别,句法分析,语义和篇章的理解,已经越来越显示出在工业界中的实际价值。比如搜索引擎,问答系统,聊天系统,以及最近出现的热度比较高的机器智能自动写诗等等,都是基于自然语言处理的技术的。

句法分析在自然语言处理中,是一项重要的任务,它上承词法分析任务,比如分词、词性标注、命名体识别等等,下接语义分析、篇章分析等任务。已有的研究表明,正确的句法分析系统会为其他的自然语言处理任务提供更多的更有用的信息,从而提高其他自然语言处理的性能。自然语言中的句法分析任务,可以看成是将自然语言中一个由词的线性序列表示的句子,经过算法的分析,表示成一棵树结构的形式,这种形式称为句法分析树。目前主流的句法分析基于的理论有两种,一种是基于乔姆斯基的形式语言理论中的CFG(上下文无关文法),这种句法分析也称为成分句法分析;另一种是基于特斯尼耶尔的依存句法理论的句法分析。本发明专利采用的是成分句法分析,即通过构建一棵层次句法分析树,可以描述一个句子是如何由词逐步组合成短语,最终构成整个句子的,层次结构的句法分析树可以提供线性的词序列所无法提供的丰富的结构信息。

目前汉语的成分句法分析,借鉴了英文中的句法分析理论和方法,都是基于CFG(上下文无关文法)。但是,从语言学上来看,中文和英文有很大的不同,中文是一种孤立语言,缺少形态的变化,词性的概念不明显,以意合为主,成句方式较为自由。而英语是一种屈折语,词的形态变化丰富,有明确的词性的概念,成句的方式较为严格。所以借鉴英文方式的句法分析,不能很好的反应出汉语的特点,也提供不了中文自然语言处理中需要的相应的信息。早期基于CFG的句法分析方法,存在的问题是事先需要一个构造好的CFG文法,但是手工构造的文法有无法覆盖和切合现实中人们使用的语言的情况。因而后来出现了基于统计的句法分析,但是其仍然是基于CFG文法的,一方面对CFG的规则加上概率(可以从语料库中统计出规则以及每条规则的概率),另一方面对于实际的句法分析方法也通过统计来学习在不同的情况下应该执行什么样的分析动作。CFG的规则一般不直接在词上构造(比如NP红色的苹果),因为这会导致将来不能处理含有域外词的句子,所以这类方法一般都是在词性一级上构造规则的(例如,NP adj n,而“红色的”需要事先标注词性为adj,“苹果”事先标注词性n)。这样就使得目前的成分句法分析方法非常依赖于词性标注,但是仅仅词性构造规则又使得句法分析结果不够准确,不能处理一些歧义问题,因而多数性能好的句法分析器又引入了中心词的信息。总之,目前的成分句法分析器都需要有准确的词性标记和合适的中心词的标记的信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810203192.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top