[发明专利]一种基于罗马化维吾尔语的神经机器翻译系统在审
申请号: | 202011298243.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112507734A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 王健;陈昊钰;陈思宇;侯潇钰 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/289;G06F40/242 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 罗马 维吾尔 神经 机器翻译 系统 | ||
本发明公开了一种基于罗马化维吾尔语的神经机器翻译系统,在构建翻译系统前,对汉维双,为后续例如词对齐处理提供分好词且格式恰当的双语数据;本系统的预处理根据语料不同的特性,对语料进行不同的预处理过程,即对中文语料使用Jieba分词,并使用BPE编码继续切割单词,而对维吾尔语语料首先进行“词根+词缀”形态分词,接着对分词后的维吾尔语进行罗马化处理,最后使用BPE编码进行处理;使用Tansformer翻译模型进行翻译模型训练,得到最终翻译模型;对于翻译过程,首先同样对维吾尔语进行预处理,即“词根+词缀”分词和罗马化处理,接着使用训练好的模型翻译处理好的语料,最终将得到翻译好的汉语。
技术领域
本发明涉及机器翻译技术领域,主要涉及一种基于罗马化维吾尔语的神经机器翻译系统。
背景技术
机器翻译是利用计算机将源语言自动转换为目标语言的技术。目前常用的翻译方法为统计机器翻译和神经机器翻译。神经机器翻译(Neural Machine Translation,NMT)在前几年取得了令人印象深刻的结果,它的翻译效果优于传统的基于短语的统计机器翻译(Phrase-Based Statistical Machine Translation,PBSMT)方法。最先进的NMT系统依赖于编码器解码器架构,并引入注意机制来模拟字对齐;模型随后将源句编码为固定长度的矢量,然后逐字解码,以从矢量表示输出目标字符串。
NMT和统计机器翻译(Statistical Machine Translation,SMT)模型对训练数据的噪音敏感,尤其是快速记住不良示例的NMT。许多研究都建议在平行语料中过滤掉噪声。数据过滤可以减少数据大小和噪声,因此,可以提高培训时间和质量的有效性。但是,找到筛选数据的最佳标准具有挑战性,尤其是在资源不足的语言(如维吾尔语)中。原因是缺乏已知的高质量数据集,这是大多数已知的筛选和选择方法所需的。
NMT通常使用有限词汇来组成输入和输出序列的固定词汇表,但翻译是一个处理开放词汇的过程。因此,错误翻译的稀有词或用未知单词(Unknown Words,UNK)符号用于表示每个可能的未登录单词(Out-Of-Vocabulary,OOV)。除了国家文字系统无法翻译稀有词语外,使用UNK符号表示OOV单词也增加了句子的模糊性,因为符号打破了这些句子的结构。因此,词汇中的翻译和重新排序受到负面影响。
Sennrich等人建议使用字节对编码(Byte Pair Encoder,BPE)算法,在数据压缩的基础上将单词分割成子词单位。BPE切分表明,在缓解有限的词汇和UNK方面,情况有望有改善。BPE尽管具有优势,但仍存在某些限制。例如,当词根以各种形态形式出现时,BPE通常会进行不同的分段,从而增加数据歧义并导致翻译错误。此外,BPE可能会将一个罕见或未知的单词拆分为没有意义的子词单位或语义上不同的已知单位,这些子词可以输出语义上不正确的翻译。
目前的机器翻译主要针对英语、汉语、俄语、法语等常见语种,而对小语种(如维吾尔语)的研究较少,目前针对汉维的机器翻译专利多是针对翻译的算法、词语对齐方法、词干提取方法、网站开发等,缺少与预处理相关的专利发明。
现有的翻译模型构建方法多是使用分词、清理长短句、BPE处理、模型训练、模型测试等步骤构建一个完整的翻译系统。这种方法对于汉语、英语这类词形变化较小的语种来说是十分有效的,但是对于形态丰富的语种(如维吾尔语,维吾尔由8个元音和24个辅音组成,共32个字母。维吾尔字母不同于汉语、英语等常用语言的书写规则。维吾尔字母不是单一形式的,而是每个字母可能有几种不同的形式。在无法连接的单词后,前链接出现在连接的字母之前,中间链接出现在两个可以连接的字母的中间,并且后连接出现在连接的字母之后。维吾尔语可以通过在词干后附加词缀来形成新词。有丰富的形态变化和特定的词缀规则,同时还遵循语音和谐规律,生成过程中还会出现弱化、增音、脱落等音变现象),这种模型构建方法会带来一些问题,主要是缺少针对特定语法和词汇形态的分词方法;以及BPE现有的局限性。
目前基于神经网络的汉维翻译存在的问题是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011298243.X/2.html,转载请声明来源钻瓜专利网。