[发明专利]基于共享编码器的汉越无监督神经机器翻译方法在审

申请号：	202010985908.8	申请日：	2020-09-18
公开（公告）号：	CN112287694A	公开（公告）日：	2021-01-29
发明（设计）人：	余正涛;薛振宇;文永华;郭军军;王振晗;相艳	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/126;G06F40/242;G06F40/30;G06N3/04;G06N3/08
代理公司：	昆明人从众知识产权代理有限公司 53204	代理人：	何娇
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于共享编码器汉越无监督神经机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及基于共享编码器的汉越无监督神经机器翻译方法。本发明只使用汉语和越南语的单语语料，用无监督的方式进行训练。首先使用数字对齐作为种子词典训练汉越双语词嵌入。然后再将该双语词嵌入应用到共享编码器模型中，将汉语和越南语映射到同一语义空间，然后再分别使用解码器对越南语和汉语分别解码，实现基于共享编码器的汉越无监督神经机器翻译。本发明在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势，并且在该无监督模型基础上加入少量平行语料后训练的半监督的翻译模型超过了直接使用相同量的平行语料训练的有监督翻译模型。

技术领域

本发明涉及基于共享编码器的汉越无监督神经机器翻译方法，属于自然语言处理技术领域。

背景技术

在越南语自然语言处理领域中，对于汉越机器翻译而言，由于汉语和越南语的语言差异性相对较大，不存在同源词，并且双语平行语料稀缺而单语语料充足，缺少大规模、高质量平行语料库是一个实际问题。汉语到越南语的翻译是典型的低资源机器翻译情况。目前有人利用枢轴语言和半监督的方法解决低资源问题，但是这些方法仍然需要大量的跨语言信息。因此对只利用单语语料的无监督汉越机器翻译方法进行了研究，并对基于共享编码器的汉越无监督的神经机器翻译方法进行了实现。

发明内容

本发明提供了基于共享编码器的汉越无监督神经机器翻译方法，用于解决和提升在双语语言差异性大且双语平行语料稀缺，缺少大规模、高质量平行语料库的情况下的低资源神经机器翻译的性能和效果。

本发明的技术方案是：基于共享编码器的汉越无监督神经机器翻译方法，所述方法包括如下：

Step1、分别训练汉语和越南语的单语词嵌入，找到最佳的映射矩阵，使得映射后的源语言(汉语)与目标语言在同一语义空间下距离最近；

Step2、将汉语(源语言)与越南语(目标语言)的词嵌入映射到同一空间之中后，把距离最近的源语言与目标语言词对添加到词典中，进行词典自学习；

Step3、构建基于共享编码器的汉越无监督神经机器翻译模型，同时实现从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y，X_i*为第i个源语言词嵌入，Y_j*为第j个目标语言词嵌入；

Step1.2、将种子词典以二进制矩阵D的形式表示，当源语言中的第i个词和目标语言中的第j个词相互对齐时，D_ij＝1，利用公式找到最佳的映射矩阵W^*，该最佳映射矩阵可以使映射后的X_i*和Y_j*的欧几里得距离最短。

作为本发明的进一步方案，所述步骤Step2的具体步骤：

Step2.1、首先将训练的汉语(源语言)与越南语(目标语言)的词嵌入映射到同一空间之中，再通过邻近检索的方式，对每一个源语言的单词匹配一个意思最相近的目标语言单词，最后将这种对齐的源语言与目标语言词对添加到词典中，重新进行距离的计算，不断扩展词典，以此进行反复迭代，直到最终收敛为止。

作为本发明的进一步方案，所述步骤Step3的具体步骤为：