[发明专利]一种基于罗马化维吾尔语的神经机器翻译系统在审
申请号: | 202011298243.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112507734A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 王健;陈昊钰;陈思宇;侯潇钰 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/289;G06F40/242 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 罗马 维吾尔 神经 机器翻译 系统 | ||
1.一种基于罗马化维吾尔语的神经机器翻译系统,其特征在于,包括以下处理步骤:
步骤S1、维吾尔语料预处理;
步骤S1.1、“词根+词缀”形态分词;
采用有限状态自动机FSM对维吾尔语料进行切分;通过以下步骤生成后缀集:
步骤S1.1.1、构造后缀集并创建根驱动的有限状态自动机FSA;
步骤S1.1.2、反转FSA并获得非确定性有限状态自动机NFA;
步骤S1.1.3、将NFA转换为确定性有限自动机DFA;
步骤S1.2、对切分后的维吾尔语料进行罗马化处理;
步骤S2、将预处理完成的维吾尔语料输入至Transformer翻译模型中,进行翻译;
步骤S3、输出翻译结果。
2.根据权利要求1所述的一种基于罗马化维吾尔语的神经机器翻译系统,其特征在于,所述步骤S2中Transformer翻译模型构建方法如下:
步骤S2.1、将获取的汉维双语平行语料分为中文预处理阶段和维吾尔语预处理阶段,分别进行预处理;具体地,
步骤S2.2、中文语料预处理;首先对输入的中文语料进行Jieba分词如下;
步骤S2.2.1、对句子进行清理,将特殊字符标注为未知词性;使用基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG;
步骤S2.2.2、采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
步骤S2.2.3、对已登录词按字典标注标识;对于未登录词,对其中的汉字采用基于汉字成词能力的隐马尔可夫模型,并使用维特比算法取得分词和标注;对其中的英文、数字给予相应标注;
步骤S2.3、对进行Jieba分词后的中文语料进行字节对编码;具体地,
步骤S2.3.1、准备输入的训练语料;
步骤S2.3.2、确定期望的subword词表大小;
步骤S2.3.3、将单词拆分为字节序列,并在末尾添加后缀“/w”,统计单词频率;所述subword的粒度是字节;
步骤S2.3.4、统计每一个连续字节对的出现频率,选择最高频者合并成新的subword;
步骤S2.3.5、当合并后的subword词表大小满足步骤S2.3.2期望或下一个最高频字节出现频率为1时,结束合并过程,完成字节对编码;
步骤S2.4、维吾尔语料预处理;
根据步骤S1.1-S1.2,获取罗马化后的维吾尔语料;将获取的维吾尔语料采用步骤S2.3所述字节对编码方法进行编码,完成预处理;
步骤S2.5、采用Transformer模型对预处理后的汉维语料进行模型构建及训练;
所述Transformer模型包括编码器和解码器;在编码器的主层中,每一个层包括两个子层,其中第一子层是含有自注意机制的层,第二子层是全连接的前馈神经网络层;每一个子层的输出都进行残差连接和归一化操作;
所述编码器的每一个层EL,其中第一个子层的输出和第二个子层的输出计算如下:
其中,LayerNorm(·)是归一化函数;attention(·)代表自注意机制;FC(·)代表全连接前馈神经网络层;分别代表从第(L-1)个编码层得到的三个需要学习的向量,具体地,
FC(X)=max(0,XW[1]+b[1])W2+b[2]
其中Q、K、V是Transformer模型需要学习的三个参数向量;dk、α和β为预设参数;μ代表输入向量X的均值,J代表输入向量X的标准差;W和b是需要训练的权重和偏置参数,在实验开始阶段随机初始化;ε是指定小数;
所述解码器每个层中包括第一子层第二子层和第三子层所述第三子层为掩码的多头注意机制层;对于每一个子层的输出计算如下:
其中,代表从第(L-1)个解码器层转换得到的参数向量;和由编码器最后一层得到;解码器第二子层结果用于生成最终的输出序列。
3.根据权利要求1所述的一种基于罗马化维吾尔语的神经机器翻译系统,其特征在于,所述步骤S1.2中采用开元罗马化工具uroman对切分后的维吾尔语进行处理,具体包括:
(1)采用启发式方法对Unicode数据进行罗马化;给定Unicode描述的语音标记,uroman使用第二组探针来预测这些语音标记的罗马化表示;
(2)采用更正表法对非组合罗马化字符的序列进行罗马化处理;手动创建更正表,将一个或多个字符的序列映射到所需的罗马化字符;
(3)针对无Unicode描述的字符进行罗马化表示;针对汉字,通过汉语拼音表进行罗马化处理;针对朝鲜语,采用标准韩文进行罗马化处理;针对埃及象形文字,在uroman的其他表格中添加单音语音字符和数字进行罗马化处理;
(4)数字的罗马化处理;通过创建特殊数字模块,将不同语言中的数字字符一一映射到西方阿拉伯数字0-9;
(5)拉丁文字的罗马化处理;采用替代的罗马化形式,uroman保留原始的拉丁语拼写,减去任何变音符号,作为最大的罗马化替代方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011298243.X/1.html,转载请声明来源钻瓜专利网。