[发明专利]一种基于罗马化维吾尔语的神经机器翻译系统在审
申请号: | 202011298243.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112507734A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 王健;陈昊钰;陈思宇;侯潇钰 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/289;G06F40/242 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于罗马化维吾尔语的神经机器翻译系统,在构建翻译系统前,对汉维双,为后续例如词对齐处理提供分好词且格式恰当的双语数据;本系统的预处理根据语料不同的特性,对语料进行不同的预处理过程,即对中文语料使用Jieba分词,并使用BPE编码继续切割单词,而对维吾尔语语料首先进行“词根+词缀”形态分词,接着对分词后的维吾尔语进行罗马化处理,最后使用BPE编码进行处理;使用Tansformer翻译模型进行翻译模型训练,得到最终翻译模型;对于翻译过程,首先同样对维吾尔语进行预处理,即“词根+词缀”分词和罗马化处理,接着使用训练好的模型翻译处理好的语料,最终将得到翻译好的汉语。 | ||
搜索关键词: | 一种 基于 罗马 维吾尔 神经 机器翻译 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011298243.X/,转载请声明来源钻瓜专利网。