[发明专利]一种基于迁移学习的蒙汉互译方法在审
申请号: | 201910806877.2 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110688862A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 苏依拉;赵亚平;牛向华;孙晓骞;王宇飞;高芬;张振 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 61215 西安智大知识产权代理事务所 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 平行 神经 语料 迁移 翻译模型参数 大规模语料 双语语料库 先验知识 信息融合 知识表示 蒙古语 求解 句法 权重 译文 词汇 翻译 学习 融合 语言 | ||
本发明是为解决目前蒙汉机器翻译译文质量低、翻译效果差问题提出的。蒙古语属于低资源语言,收集大量的蒙汉平行双语语料库极为困难,本发明中将迁移学习与先验知识相融合的思想有效的解决这一难题。迁移学习是运用已有的知识对不同但是相关领域问题进行求解的方法。首先,利用大规模的英‑汉平行语料基于神经机器翻译框架进行训练;其次,将大规模的英‑汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中;再次,将通过大规模语料训练得到丰富的词汇、句法等相关知识表示信息融合到蒙汉神经机器翻译模型中;最后,利用现有的蒙‑汉平行语料训练神经机器翻译模型。
技术领域
本发明属于神经机器翻译技术领域,特别涉及一种基于迁移学习的蒙汉互译方法。
背景技术
机器翻译指使用机器(计算机)自动地将一种自然语言转化为具有完全相同含义的另一种自然语言的过程。近几年随着国际间交流的日趋频繁,机器翻译作为突破语言障碍的重要手段,在人们的生产、生活中发挥着越来越大的作用。神经机器翻译作为数据驱动方法的机器翻译中的一种,高度依赖平行语料数据结构的规模、质量。由于神经网络参数规模庞大,只有当训练语料库具有一定的规模后,神经机器翻译才会显著超过统计机器翻译译文质量。然而,目前可用于实验的蒙汉平行语料资源十分有限,收集大量蒙汉双语平行语料库需要耗费大量的人力、物力极为困难。
蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性使得蒙汉机器翻译研究进展相对缓慢,其中,蒙汉平行语料数据集匮乏是阻碍蒙汉机器翻译研究的一个不容忽视的大问题。而迁移学习的核心思想是把训练源任务获取的知识存储下来,应用于新的(不同,但相近任务)任务中。迁移学习策略允许借用大量已有的标记数据来训练网络将其知识迁移到标记数据较少的模型中。
目前,已有一些神经机器翻译技术针对低资源语言存在平行语料库匮乏问题被提出。由于蒙-汉平行语料匮乏以及蒙古语语法本身复杂性使得翻译译文质量并不理想,翻译过程仍存在严重的数据稀疏现象。迁移学习策略将已学习到的知识应用到相近任务上,减少应用任务的训练数据量,为达到通用人工智能提供了可能性。相比从头训练神经网络迁移学习策略可以实现将已经训练好的网络结构的参数权重作为预训练,从而加快翻译模型训练进展以及提升最终的翻译译文质量。
发明内容
为了克服上述现有技术的缺点,本发明从缓解蒙汉机器翻译存在数据稀疏问题和提高蒙汉机器翻译译文质量的角度出发,针对低资源语言提出了一种基于迁移学习的蒙汉互译方法,同时,利用大规模的蒙古语语料训练得到的具有丰富知识表示的语言理解模型,将其作为外部知识表示嵌入到蒙汉神经机器翻译模型中。目前,除了中英语言拥有大量的双语平行语料库资源,其他语言都普遍存在平行语料库匮乏的问题。本发明将大量英-汉平行语料库资源训练得到网络参数权重,将其迁移到蒙汉神经机器翻译模型中,为了最大限度的实现积极的迁移效果,在训练蒙汉神经机器翻译模型时编码器端网络参数不再随训练周期的迭代而改变,也就是冻结其网络参数。从而解决了蒙-汉平行语料库不足问题,达到提升蒙汉机器翻译性能的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于迁移学习的蒙汉互译方法,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;再次,进行蒙汉大规模语料训练得到包括词汇、句法在内的相关知识表示信息,将所述相关知识表示信息融合到蒙汉神经机器翻译模型中;最后,利用现有的蒙-汉平行语料训练神经机器翻译模型,利用训练的该模型进行蒙汉互译。
在进行翻译模型训练前要进行的数据预处理是神经机器翻译模型训练时要做的准备工作。本发明中数据预处理工作主要包括:1)利用分词工具stanford-segmenter对中文语料进行分词操作;2)利用英文预处理工具stanford-ner对英文语料进行预处理操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806877.2/2.html,转载请声明来源钻瓜专利网。