[发明专利]一种基于汉越词对齐语料构建越南语依存树库的方法在审
申请号: | 201510413781.1 | 申请日: | 2015-07-15 |
公开(公告)号: | CN104991890A | 公开(公告)日: | 2015-10-21 |
发明(设计)人: | 余正涛;李发杰;郭剑毅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 汉越词 对齐 语料 构建 越南语 依存 方法 | ||
技术领域
本发明涉及一种基于汉越词对齐语料构建越南语依存树库的方法,属于自然语言处理技术领域。
背景技术
中国—东盟自由贸易区是世界上人口最多的自由贸易区,“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相互学习方面起到了十分重要的作用。所以,针对双语方面的研究工作就显得尤为重要。越南语和汉语的互译过程中,句法分析是十分重要的工作。越南语的结构相对比较简单,词语之间的从属关系清晰明确,所以相对于短语树的句法分析,越南语更适合采用依存树的方法进行句法分析;越南语依存标注体系和越南语依存树库的构建,已经成为整个越南语依存分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
发明内容
本发明提供了一种基于汉越词对齐语料构建越南语依存树库的方法,以用于解决现有技术对于研究越南语的依存句法分析比较困难的问题,构建越南语依存树库比较稀缺的问题,本发明构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑。
本发明基于汉越词对齐语料构建越南语依存树库的方法是这样实现的:所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;
Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
所述步骤Step1.1中,主要通过在互联网上爬取汉越平行句对、扫描书籍及文件材料以及人工翻译等方式得到汉越平行句对。
所述步骤Step2中,采用LTP语言处理平台构建了中文的依存树库。
本发明的有益效果是:
1、构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;
2、构建了双语平行依存树库语料;
3、本发明提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;
4、本发明提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。
附图说明
图1为本发明中的流程图;
图2为本发明的中文依存关系示意图;
图3为本发明越南语依存关系构建过程示意图。
具体实施方式
实施例1:如图1-3所示,一种基于汉越词对齐语料构建越南语依存树库的方法,所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510413781.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种改良式剪裁机
- 下一篇:一种夹克类服装袖子的制版及缝制方法