[发明专利]一种将中文短语结构树库转化为依存结构树库的系统和方法无效
申请号: | 201210479801.1 | 申请日: | 2012-11-23 |
公开(公告)号: | CN103020148A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 邱锡鹏;赵建双 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 短语 结构 转化 依存 系统 方法 | ||
技术领域
本发明属于自然语言处理技术领域,具体为一种将中文短语结构树库转换为依存结构树库的系统及其方法。
背景技术
随着自然语言处理的发展,基于规则的研究方法逐渐显示出它的局限性,人们越来越趋向于用基于统计学的方法从真实的语料中获取自然语言的规律。句法分析位于自然语言处理中的一个核心位置,其性能的好坏,对其他技术有着重要的影响。它也是以基于统计学的方法为主流方法。所以语料数据在句法分析中充当了一个重要的角色。语料的准确度的高低与规模的大小从最基础的层面决定着句法分析的性能的好坏,没有大规模、高准度的语料,再好的算法也失去了他的作用。树库作为一种对句子进行了深层句法标注的语料库越来越引起人们的兴趣。
目前研究人员在树库研究方面开展了大量的研究和开发工作,也取得了可观的成果。这些树库采用的标注体系差别巨大,按照描述方法大体分为两种,一种是短语结构树,一种是依存树。在世界范围来说,大多数大规模树库是基于短语结构的。关于汉语树库中,基于短语结构标注的树库也占有主要地位,其中最为著名的是宾夕法尼亚大学的中文树库Penn Chinese Treebank。
在语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。而基于依存句法的汉语树库的匮乏无疑限制了汉语句法分析的发展。由于标注树库需要完善的标注体系和规范的标注流程,来保证标注的质量,这是一件费时费力的工作。研究发现短语结构和依存结构虽然在表现形式上不同,但是它们都是对句子语法结构的描述,因此在结构上存在一致性。而现今短语结构树库是充足的,我们可以根据他们之间的联系可以将短语结构转换成依存结构,得到我们想要的依存树库,从而免去了大量的人工标注工作。
目前国内外不少人都尝试了将短语结构树库转化为依存树库。其中最主流的方法是利用核心节点映射表来找到每一层的核心节点,且同一层的其他节点都依赖于这个核心节点,并用递归的方式遍历整棵结构树。树库转换工具PENN2MALT就是利用这一思想的主流转换工具,它提供了Penn Treebank和Penn Chinese Treebank的核心节点映射表,以及它的可执行文件,现在都已经免费共享。
PENN2MALT对于Penn Treebank英文语料的转换达到了很好的效果,不过由于汉语的复杂性,以及PENN2MALT自身的规则的简单性,用PENN2MALT转换的PennChineseTreebank中文语料结果效果并不是很好,如果用他转换后的语料来训练依存句法的话,会影响依存句法最终的性能。所以我们根据汉语的特点,定义了大量的规则,用规则的方法开发了自己的转换工具,用这个转换工具转换后的语料相对于PENN2MALT转换的语料,具有更高的准确性和规范性。
发明内容
本发明目的在于提出一种基于规则的中文树库转换系统和方法,将PennChineseTreeBank中文结构树库转换成更合理更规范的依存树库。
本发明提出的一种将中文短语结构树库转化为依存结构树库的方法,其具体步骤如下:
1) 读入PennChineseTreebank中文树库,并通过拆分器,将树库中的长句拆分为短句。
2) 确定最终的核心映射表,并利用核心映射表得到每个词的初始依赖头节点。
3) 通过依赖规则器确定每个词的最终依赖头节点。
4) 建立依赖关系类型标注规范,通过依赖关系规范器,确定词与词之间的最终依赖关系,形成最终的依赖树库。
本发明主要包括:拆分复杂的树结构;建立更准确的核心映射表,并排除标点、语气词、感叹词做核心词的情况;利用规则的方法解决汉语中的特殊语法结构;建立依赖关系类型标注规范;利用规则的方法确定依赖关系类型。下面来一一介绍本发明的主要内容。
一、拆分复杂的树结构
在Penn Chinese Treebank树库中存在许多长句子,并且这些长句子被标注在一棵结构树中,其结构非常的复杂,这样的结构树中可能存在多个根节点,而且这些根节点相互之间不存在依赖关系,所以如果将这样的长句转换成依存树的话,会大大降低依存树库的准确率。而本发明中采用拆分器将这些长句切割成若干个短句子,每个短句子自身形成一个独立的结构树,从而降低了结构树的复杂度。再将这些重新生成的结构树转换成依赖树,从而得到更高准确率和规范性的依赖树库。其具体规则为:根据树结构的特点,在根节点的孩子节点中,将其为逗号或分号的设为拆分点,把长句拆分为短句,且拆分后的树以原来的根节点作为现在的根节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210479801.1/2.html,转载请声明来源钻瓜专利网。