[发明专利]一种基于汉越词对齐语料构建越南语依存树库的方法在审
申请号: | 201510413781.1 | 申请日: | 2015-07-15 |
公开(公告)号: | CN104991890A | 公开(公告)日: | 2015-10-21 |
发明(设计)人: | 余正涛;李发杰;郭剑毅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 汉越词 对齐 语料 构建 越南语 依存 方法 | ||
1.一种基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;
Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
2.根据权利要求1所述的基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述步骤Step1.1中,主要通过在互联网上爬取汉越平行句对、扫描书籍及文件材料以及人工翻译等方式得到汉越平行句对。
3.根据权利要求1所述的基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述步骤Step2中,采用LTP语言处理平台构建了中文的依存树库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510413781.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种改良式剪裁机
- 下一篇:一种夹克类服装袖子的制版及缝制方法