[发明专利]一种提升神经机器翻译效果的有效数据增强方法有效
申请号: | 201911088431.7 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110852117B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 杜权;李自荐 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06N3/0464;G06N3/0442;G06N3/045 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 神经 机器翻译 效果 有效 数据 增强 方法 | ||
本发明公开一种提升神经机器翻译效果的有效数据增强方法,步骤为:在对应网站中获取基础数据集;根据基础数据集进行词对齐信息获取,得到基础数据集的词对齐信息;使用LSTM语言模型分别训练得到对应语种方向的语言模型;提取低于指定阈值频率的单词组成罕见词词表;获取词语对应信息,得到源语及目标语子句集合和子句对应集合;对目标语子句集合进行翻译,组成句子级数据扩充集合;用罕见词替换常见词得到词级的数据扩充集合;使用句子级和词级数据扩充集合与原始双语基础数据合并,组成训练集合进行神经机器翻译模型的训练,得到更高质量的模型结果。本发明实现了低资源语种语料的有效扩充,实现简单、方法有效,实用性强,提升效果明显。
技术领域
本发明涉及一种机器翻译领域,具体为一种提升神经机器翻译效果的有效数据增强方法。
背景技术
近年来,基于深度神经网络的自然语言处理领域中的各项任务均取得了比较显著的成绩,如神经机器翻译等。作为一种具备超强学习能力的网络模型,若没有大规模高质量双语平行语料库进行训练支撑,模型在指定数据集上可能会出现过拟合的情况。因此,模型学习效果与双语平行句对的规模和质量息息相关。然而,对于低资源语种来说,如泰语、老挝语等。标准双语平行语料缺乏,公开语料库规模过小,导致神经机器翻译的学习能力受到极大的限制,不仅不能支持神经机器翻译模型训练以达到一个理想的效果,而且还容易出现数据集过拟合的情况。而若通过人工的方式构建一个高质量的大规模平行语料库则需要大量的时间、费用和专业人员来翻译大量的文本,实用成本过高。因此从语料库的方向入手,使用计算机在基础双语语料库的前提下实现自动语料库构建工作,对提升神经机器翻译模型翻译精度的工作具有较高的实用价值。
在以往的研究工作中,基于神经机器翻译双语平行语料的有关工作主要分为两种方式进行,如下所示:
(1)数据清洗:对于存在某些数据噪声的句子进行修正或移除操作,降低语料库中的噪声影响,以此来达到提升神经机器翻译模型翻译精度的目的。
(2)数据增强:利用某些方法对现有的数据进行扩充,在保证双语数据互译性以及句子完整性的前提下,实现数据增强目的。使用该种方式能够增加数据中某些弱泛化部分的丰富度,使神经机器翻译模型在训练的过程中能够得到更多信息。以此来提升模型学习效果,提升模型翻译精度。
在机器翻译领域,神经机器翻译模型训练语料质量提升一直都是研究的重点问题,其中一个最主要的原因即为语料库的规模和质量与神经机器翻译模型的精度具有强相关性。在计算机视觉领域中,去除训练数据中的噪声后通过水平翻转、随机剪裁、倾斜和改变原始图像RGB通道等方式扩充数据规模以增强模型鲁棒性,改善模型学习效果的图像数据增强技术目前已经被广泛使用。同样的,在神经机器翻译模型训练的过程中,为了能够训练出具有可靠参数估计的模型,需要大量的高质量平行句对来支撑模型训练。因此,数据质量与规模的不足往往造成了模型性能的缺陷。对于该领域来说,也可以使用数据增强技术在保证双语数据互译性及句子合理性的前提下实现对数据的扩充,实现自然语言处理领域的数据增强技术,并以此提升模型最终的翻译准确性。
发明内容
针对现有技术中神经机器翻译模型训练的过程中,低资源语种的语料库规模不足,需要根据现有数据获取大规模训练数据支撑神经机器翻译模型训练,本发明要解决的问题是提供一种提升神经机器翻译效果的有效数据增强方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种提升神经机器翻译效果的有效数据增强方法,包括以下步骤:
1)在对应网站中获取指定语种方向的双语平行语料公开数据集作为数据增强的基础数据集,在基础数据集分别获取源语言及目标语言对应语种方向的单语数据集作为训练后续语言模型的基础单语数据集;
2)根据基础数据集使用fast-align词对齐技术对数据集进行词对齐信息获取,得到基础数据集的词对齐信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911088431.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种芯片背部字符识别方法
- 下一篇:一种抓取机构