[发明专利]一种基于伪平行语料库构造的蒙汉机器翻译方法有效

专利信息
申请号: 202011141114.X 申请日: 2020-10-22
公开(公告)号: CN112215017B 公开(公告)日: 2022-04-29
发明(设计)人: 仁庆道尔吉;刘永超;苏依拉;石宝;李雷孝;庞蕊;文丽霞 申请(专利权)人: 内蒙古工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/211;G06F40/216;G06F40/237;G06F40/247;G06N3/04;G06N3/08
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 平行 语料库 构造 机器翻译 方法
【权利要求书】:

1.一种基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,包括如下骤:

第一步:利用简单数据增强方法对精确蒙汉平行语料库进行初步扩充得到蒙汉伪平行语料库

第二步:利用条件生成对抗网络构建一个汉蒙回译模型ΘB,并利用此模型将从汉语单语语料库中选择的汉语句子翻译为蒙语句子,得到蒙汉伪平行语料库

第三步:将精确蒙汉平行语料库、蒙汉伪平行语料库和蒙汉伪平行语料库混合得到大规模蒙汉伪平行语料库,利用软上下文数据增强方法对大规模蒙汉伪平行语料库中的蒙语句子中某个词或多个词的词义表示进行最后增强;

第四步:利用条件生成对抗网络构建蒙汉翻译模型ΘA,随后利用增强的词义表示进行词嵌入,训练蒙汉翻译模型ΘA,提升其翻译能力;

其中,所述汉蒙回译模型ΘB的构建方式如下:

首先条件生成对抗网络的生成器G在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子;生成器G每生成一个蒙语词,鉴别器D都会给生成器G一个奖励值,生成器G生成蒙语句子的质量越高则奖励值越大;生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建,本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BLG和BLD;此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题;

所述生成器G的损失函数J(θ)表达式如下:

其中,θ是实现生成器G的网络模型BLG内部的参数;Y1:T=y1,…,yT,表示生成器G生成的蒙语句子;X是指汉语句子;Y*表示真实蒙语句子;Gθ(Y1:T|X)表示模型参数为θ的生成器G在的到汉语句子X的情况下翻译为蒙语句子Y1:T的初始损失模型;表示在鉴别器D中以生成器G对蒙语词语的翻译所规定的推测规则为策略记作Gθ,在给定汉语句子X和已经生成的前T-1个蒙语词Y1:T-1记作(Y1:T-1,X)的状态下,对下一个蒙语词yT的翻译行为即采取行动yT后所得到的奖励值;

奖励值由鉴别器D给出,其表达式如下:

其中D(X,Y1:T)是鉴别器D在给定汉语句子X的条件下翻译成蒙语句子Y1:T时给出的初始奖励值;b(X,Y1:T)是偏置项,其作用是为了减少鉴别器D给出的奖励值的方差;

使用蒙特卡罗搜索在由模型BLG实现的且参数为θ的生成器G规定的策略Gθ的驱使下抽取未知的蒙语词;当待确定的蒙语句子的最后一个词被选中或者蒙语句子已经达到最大长度则结束一次搜索,执行多次蒙特卡罗搜索以提高模型的稳定性,公式如下:

其中N是蒙特卡罗搜索执行的次数;Ti表示第i次蒙特卡罗搜索出的生成器G翻译出的蒙语句子的长度;t是指当前以确定翻译完毕的蒙语词的序号,(Y1:t,X)=(y1,…,yt,X)指在给定了汉语句子X条件下已经确定翻译完毕的蒙语词的序列即当前状态,通过N次蒙特卡罗搜索,鉴别器为翻译出来的蒙语句子分别提供奖励值,翻译过程中的中间状态的奖励值通过鉴别器D返回的N个中间状态的奖励值求平均得到;

生成器G翻译完毕的完整蒙语句子的长度为T,则每次新选取的蒙语词yt奖励值通过下面的公式计算得到:

通过上式表述的奖励值的计算方式来训练生成器G,不断优化实现生成器G的模型BLG中的参数θ,旨在使生成器G的损失函数J(θ)的值达到最小,得到翻译能力更强的生成器,并用如下公式重新训练鉴别器D:

其中Pdata指精确蒙汉平行语料库,G指生成器,D指鉴别器;

在鉴别器更新之后,再次使用鉴别器返回的奖励值数据更新生成器,更新使用的梯度公式如下:

由此训练得到汉蒙回译模型ΘB。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011141114.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top