[发明专利]一种面向小语种语言的神经机器翻译方法有效
申请号: | 201910629266.5 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110334361B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 田玲;朱大勇;秦科;罗光春;杨洋 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 成都希盛知识产权代理有限公司 51226 | 代理人: | 陈泽斌 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 语种 语言 神经 机器翻译 方法 | ||
本发明涉及神经机器翻译技术领域,其公开了一种面向小语种语言的神经机器翻译方法,解决平行语料匮乏的情况下神经机器翻译的问题。该方法通过以下步骤构建神经机器翻译模型以及进行训练:1、获取单语语料并进行预处理;2、利用单语语料分别训练源语言和目标语言的语言模型;3、利用小语种语言的平行语料库中的双语平行语料在源语言和目标语言的语言模型中的编码结果,分别训练用于将其中一种语言的编码结果映射到另一种语言空间中的映射器;4、利用单语语料训练鉴别器模型;5、利用语言模型、映射器、鉴别器模型、双语平行语料、单语语料训练翻译模型。本发明适用于仅拥有小规模平行语料库的小语种语言之间的翻译。
技术领域
本发明涉及神经机器翻译技术领域,特别涉及仅拥有小规模平行语料库的小语种语言的神经机器翻译方法。
背景技术
机器翻译是自然语言处理的分支,是人工智能的目标之一。随着神经网络相关理论与技术的发展,机器翻译的相关研究从传统的基于统计的机器翻译逐渐转变到基于神经网络的机器翻译。神经机器翻译成为当下各学者研究的重点之一,在推动理论和技术发展的同时,对促进世界经济文化交流起到了重要作用。
神经机器翻译具有神经网络的部分特点,如:数据需求量大、计算性能需求高等特点,同时又具有自己独特的特点,如:平行语料准确性需求高、OOV(Out of Vocabulary)问题、平行语料成本高、标注难等问题。
目前大量神经机器翻译的研究主要集中在有监督学习任务上,即利用由源语言和目标语言对构成的平行语料库来学习翻译模型,从而得到能够完成翻译任务的模型。但是,由于神经网络的特性,该学习过程需要大量的平行语料来完成,同时,需要大规模的神经网络模型来完成该任务,这也就意味着对硬件设备有着极高的要求。然而,这些特点对仅拥有小规模平行语料库的小语种语言之间的翻译是不适用的,大规模神经网络模型和小规模平行语料库会造成严重的欠拟合问题,同时由于小规模平行语料库与神经网络数据量的需求之间的矛盾,难以发挥神经网络在这种情况下的优势。
发明内容
本发明所要解决的技术问题是:提供一种面向小语种语言的神经机器翻译方法,解决平行语料匮乏的情况下神经机器翻译的问题。
本发明解决上述技术问题采用的技术方案是:
一种面向小语种语言的神经机器翻译方法,包括通过以下步骤构建神经机器翻译模型以及进行训练:
步骤1、获取单语语料并进行预处理;
步骤2、利用单语语料分别训练源语言和目标语言的语言模型;
步骤3、利用小语种语言的平行语料库中的双语平行语料在源语言和目标语言的语言模型中的编码结果,分别训练用于将其中一种语言的编码结果映射到另一种语言空间中的映射器;
步骤4、利用单语语料训练鉴别器模型;
步骤5、利用语言模型、映射器、鉴别器模型、双语平行语料、单语语料训练翻译模型。
作为进一步优化,步骤1具体包括:
步骤1.1、利用爬虫工具爬取源语言和目标语言句子,并进行筛选,剔除长度超过阈值的句子,获得源语言和目标语言的单语语料;
步骤1.2、利用分词工具对源语言和目标语言的单语语料进行分词,并且使用BPE(双字节编码)技术结合Word2Vec技术学习词向量,然后利用词向量将源语言和目标语言的单语语料以及小语种语言的平行语料库中的双语平行语料的句子进行向量化。
作为进一步优化,步骤1.2中所述使用BPE技术结合Word2Vec技术学习词向量,包括:
首先利用BPE技术对分词后的单语语料进行处理,包括学习子词、创建训练集词表、应用训练集词表到验证集和测试集;然后利用Word2Vec中的Skip-gram模式学习词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629266.5/2.html,转载请声明来源钻瓜专利网。