[发明专利]一种基于汉越词对齐语料构建越南语依存树库的方法在审
申请号: | 201510413781.1 | 申请日: | 2015-07-15 |
公开(公告)号: | CN104991890A | 公开(公告)日: | 2015-10-21 |
发明(设计)人: | 余正涛;李发杰;郭剑毅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于汉越词对齐语料构建越南语依存树库的方法,属于自然语言处理技术领域。本发明首先构建汉越词对齐平行句对库,再构建中文依存树语料库,根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库。本发明构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;构建了双语平行依存树库语料;本发明提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;本发明提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。 | ||
搜索关键词: | 一种 基于 汉越词 对齐 语料 构建 越南语 依存 方法 | ||
【主权项】:
一种基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:Step1、首先构建汉越词对齐平行句对库;Step1.1、首先收集汉越平行句对;Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;Step2、构建中文依存树语料库;Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;Step2.3、对词性标注后的中文句子训练得到中文依存树库;Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510413781.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种改良式剪裁机
- 下一篇:一种夹克类服装袖子的制版及缝制方法