[发明专利]一种基于协同训练的半监督蒙汉神经机器翻译方法有效
申请号: | 202010110878.6 | 申请日: | 2020-02-24 |
公开(公告)号: | CN111414770B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 仁庆道尔吉;文丽霞;苏依拉;刘永超;庞蕊 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 协同 训练 监督 神经 机器翻译 方法 | ||
1.一种基于协同训练的半监督蒙汉神经机器翻译方法,其特征在于,采用协同训练方法和半监督的分类生成对抗网络相结合的方法来训练翻译模型,基本过程如下:
首先,采用半监督的分类生成对抗网络的方法对已有的蒙汉、英汉和韩汉平行语料分别训练出三个翻译模型:蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch;
其次,基于协同训练的思想从蒙英韩多源端相互平行语料中抽取蒙英韩三语对齐句子,将其分别作为蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch的输入,从而分别输出三个汉语句子;
最后,利用汉语单语语料训练一个语言模型LM-ch,通过语言模型LM-ch评估三个翻译模型输出译文的好坏,选择质量最好的汉语译文分别与各翻译模型的输入语句组成新的平行语料,并添加至原来的平行语料库中,继续训练得到新的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。
2.根据权利要求1所述基于协同训练的半监督蒙汉神经机器翻译方法,其特征在于,所述半监督生成对抗网络由生成器G和判别器D组成,其中判别器D具有细致分类功能,通过为每个样本x分配标签y来将数据分成K类,从而学习一个判别器D,并在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率:
其中Dk(x)表示判别器D将样本x判定为第k类的概率;
定义G(z)为将随机噪声z映射为生成器输出x′的函数:
x′=G(z),z~P(z)
其中,P(z)表示随机噪声的分布,z~P(z)表示z服从噪声分布P(z);
样本集X的条件熵的经验估计表示为:
其中,样本集X表示包含了N个无标签样本的样本集,X={x1,x2,…,xi,…,xN},xi表示第i个样本x;x~X表示样本x来自于样本集X;p(y|x,D)表示真实样本x的条件分布,H()表示熵,E()表示期望;
来自生成器G的样本的条件熵的经验估计表示为:
其采用蒙特卡洛方法在生成器G生成的样本中抽取M个样本进行计算,zi表示第i个随机噪声z,其中,p(y|G(z),D)表示生成器生成数据的条件分布;
为了使判别器的输入样本属于各个类的概率相同,以及使生成器生成的样本属于各个类的概率相同,构造一个均匀的边缘分布,即分别计算样本集X和生成器生成样本的边缘分布,并计算这些边缘分布的熵,即:
其中,HX[p(y|D)]表示样本集X边缘分布的条件熵,HG[p(y|D)]表示来自生成器G生成样本边缘分布的条件熵,p(y|D)表示预测的条件分布;
使用已有的少量有标签样本训练判别器D,计算p(y|x,D)与XL中真实样本标签分布的交叉熵CE[y,p(y|x,D)],即:
其中,y表示样本集XL中样本x的真实标签,y表示判别器为样本x预测的标签;XL表示一组有L个标签的样本集,XL={(x1,y1),(x2,y2),…,(xi,yi),…,(xL,yL)},yi表示第i个标签y,yi∈Rk,Rk表示实数集,每个实数代表一个分类类别,实数采用one-hot编码形式;
从而得到判别器D的目标函数LD和生成器G的目标函数LG分别如下:
其中,λ表示损失权重;
其中,样本x在各个翻译模型中表示的内容各不相同:在蒙汉翻译模型M-mo-ch中x表示蒙语、英汉翻译模型M-en-ch中x表示英语,韩汉翻译模型M-ko-ch中x表示韩语;涉及到的标签y则均表示对应的汉语。
3.根据权利要求1所述基于协同训练的半监督蒙汉神经机器翻译方法,其特征在于,所述语言模型LM-ch通过采用RNN在汉语单语语料上训练得到,其作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性,利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity,PPL),困惑度被定义为:
其中,Y是被评估的句子,yi表示Y中的第i个单词,|Y|表示句子Y的长度,P(yi|yi-1,…,y1)表示在给定一句话的前i-1个词的前提下,第i个词可能出现的概率分布;
在RNN中,第t个时间片x(t)读取的是t-1时刻的状态s(t-1)和t时刻的数据w(t),w(t)是t时刻汉语语料中单词的one-hot编码,s(t-1)是t-1时刻的隐藏层状态,用公式表示为:
x(t)=w(t)+s(t-1)
t时刻的隐藏状态sj(t)是x(t)经过sigmoid激活函数f得到的值,其中uij是权值矩阵:
每个时间片的输出yk(t)是在隐藏层节点sj(t)处添加一个softmax激活函数g而得到的值:
其中,vkj是权值矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010110878.6/1.html,转载请声明来源钻瓜专利网。