[发明专利]一种基于迁移学习策略的蒙汉神经机器翻译方法在审

专利信息
申请号: 201810428618.6 申请日: 2018-05-07
公开(公告)号: CN108829684A 公开(公告)日: 2018-11-16
发明(设计)人: 苏依拉;赵亚平;牛向华 申请(专利权)人: 内蒙古工业大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 机器翻译 学习策略 迁移 译文 神经 平行 语料 翻译模型参数 统计机器翻译 双语语料库 控制变量 流利度 蒙古语 求解 权重 翻译 语言
【说明书】:

发明是为解决目前蒙汉机器翻译译文质量低、翻译效果差问题提出的。蒙古语属于低资源语言,收集大量的蒙汉平行双语语料库极为困难,本发明中迁移学习策略可以有效的解决这一难题。迁移学习策略是运用已有的知识对不同但是相关领域问题进行求解的方法。首先,利用大规模的英‑汉平行语料基于神经机器翻译框架进行训练;其次,将大规模的英‑汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用现有的蒙‑汉平行语料训练神经机器翻译模型;最后,将基于迁移学习策略的神经机器翻译译文和统计机器翻译译文就BLEU值和译文流利度进行对比和评价。通过运用控制变量法,得出迁移学习策略有效提高了蒙汉机器翻译性能。

技术领域

本发明属于神经机器翻译技术领域,特别涉及一种基于迁移学习策略的蒙汉神经机器翻译方法。

背景技术

机器翻译指使用机器(计算机)自动地将一种自然语言转化为具有完全相同含义的另一种自然语言的过程。近几年随着国际间交流的日趋频繁,机器翻译作为突破语言障碍的重要手段,在人们的生产、生活中发挥着越来越大的作用。神经机器翻译作为数据驱动方法的机器翻译中的一种,高度依赖平行语料数据结构的规模、质量。由于神经网络参数规模庞大,只有当训练语料库具有一定的规模后,神经机器翻译才会显著超过统计机器翻译译文质量。然而,目前可用于实验的蒙汉平行语料资源十分有限,收集大量蒙汉双语平行语料库需要耗费大量的人力、物力极为困难。

蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性使得蒙汉机器翻译研究进展相对缓慢,其中,蒙汉平行语料数据集匮乏是阻碍蒙汉机器翻译研究的一个不容忽视的大问题。而迁移学习的核心思想是把训练源任务获取的知识存储下来,应用于新的(不同,但相近任务)任务中。迁移学习策略允许借用大量已有的标记数据来训练网络将其知识迁移到标记数据较少的模型中。

目前,已有一些神经机器翻译技术针对低资源语言存在平行语料库匮乏问题被提出。由于蒙-汉平行语料匮乏以及蒙古语语法本身复杂性使得翻译译文质量并不理想,翻译过程仍存在严重的数据稀疏现象。迁移学习策略将已学习到的知识应用到相近任务上,减少应用任务的训练数据量,为达到通用人工智能提供了可能性。相比从头训练神经网络迁移学习策略可以实现将已经训练好的网络结构的参数权重作为预训练,从而加快翻译模型训练进展以及提升最终的翻译译文质量。

发明内容

为了克服上述现有技术的缺点,本发明从缓解蒙汉机器翻译存在数据稀疏问题和提高蒙汉机器翻译译文质量的角度出发,针对低资源语言提出了一种简单有效的迁移学习策略。目前,除了中英语言拥有大量的双语平行语料库资源,其他语言都普遍存在平行语料库匮乏的问题。本发明将大量英-汉平行语料库资源训练得到网络参数权重,将其迁移到蒙汉神经机器翻译模型中,再利用蒙-汉平行语料库训练得到蒙汉神经翻译模型。从而解决了蒙-汉平行语料库不足问题,达到提升蒙汉机器翻译性能的目标。

为了实现上述目的,本发明采用的技术方案是:

一种基于迁移学习策略的蒙汉神经机器翻译方法,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;然后,利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练,得到基于迁移学习策略的蒙汉神经机器翻译模型;最后,利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。

其具体步骤可描述如下:

01:对中文和英文语料进行数据集的划分以及数据预处理工作;数据集划分是指划分为训练集、验证集和测试集,数据预处理工作包括中文分词和英文预处理;

02:构建RNN循环神经机器翻译模型构架,包括编码器和解码器;

03:利用大规模的英汉平行语料进行英汉神经机器翻译模型训练,模型训练中利用随机梯度下降(SGD)对网络参数进行调整和优化;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810428618.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top