[发明专利]机器翻译方法、训练方法、相应的装置及电子设备在审
申请号: | 201811126977.2 | 申请日: | 2018-09-26 |
公开(公告)号: | CN110956045A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 彭煦潭;袁文博 | 申请(专利权)人: | 北京三星通信技术研究有限公司;三星电子株式会社 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/08 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100028 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 训练 相应 装置 电子设备 | ||
1.一种机器翻译方法,其特征在于,所述方法包括:
获取源语言输入文本对应的语义编码;
基于一种或多种目标语言,分别对所述语义编码进行解码处理,得到所述一种或多种目标语言的输出文本。
2.根据权利要求1所述的机器翻译方法,其特征在于,所述获取源语言输入文本对应的语义编码,包括:
通过词向量空间模型获取所述源语言输入文本对应的词向量序列;
通过编码器对所述源语言输入文本对应的词向量序列进行编码,得到所述源语言输入文本对应的语义编码;
所述词向量空间模型中包括多种语言的词向量,所述多种语言的词向量是基于语义对齐的。
3.根据权利要求2所述的机器翻译方法,其特征在于,所述基于一种或多种目标语言,分别对所述语义编码进行解码处理,得到所述一种或多种目标语言的输出文本,包括:
基于一种或多种目标语言,分别通过解码器对所述语义编码进行解码处理,得到所述一种或多种目标语言分别对应的词向量序列;
根据所述一种或多种目标语言分别对应的词向量序列,通过所述词向量空间模型得到所述一种或多种目标语言的输出文本。
4.根据权利要求3所述的机器翻译方法,其特征在于,基于任一目标语言,对所述语义编码进行解码处理,包括以下任一情形:
将所述任一目标语言对应的目标语言标签输入所述解码器,以使得所述解码器根据所述任一目标语言对应的目标语言标签对所述语义编码进行解码;
基于所述任一目标语言,确定解码器的相应参数,并通过解码器基于所述相应参数对所述语义编码进行解码;
基于所述任一目标语言,确定相应的解码器,并通过确定出的解码器对所述语义编码进行解码。
5.根据权利要求2-4任一项所述的机器翻译方法,其特征在于,预训练词向量空间模型的方式,包括:
针对各种语言,分别训练对应的词向量;
将各种语言的词向量基于语义进行对齐,得到所述词向量空间模型。
6.根据权利要求1-5任一项所述的机器翻译方法,其特征在于,训练机器翻译网络的方式,包括:
针对各种语言的语料样本分别执行去噪训练来更新网络参数,直至基于去噪训练得到的去噪前后文本差异性指标达到预定终止条件;
针对各种语言的语料样本分别执行回译训练来更新网络参数。
7.根据权利要求6所述的机器翻译方法,其特征在于,所述针对各种目标语言的语料样本分别执行回译训练来更新网络参数,包括:
针对各种语言的语料样本分别通过预训练的语言模型计算流畅度损失及执行回译训练来更新网络参数。
8.根据权利要求7所述的机器翻译方法,其特征在于,所述针对各种目标语言的语料样本分别通过预训练的语言模型计算流畅度损失及执行回译训练来更新网络参数,包括:
步骤1,在任一种语言的训练语料中选取一个源语言语料样本,并通过所述机器翻译网络依次得到各种目标语言的训练输出文本,并确定所述各个训练输出文本对应的流畅度损失和回译前后文本差异性指标;
步骤2,针对各种语言的训练语料依次执行步骤1;
步骤3,针对各种语言对,依据相应的流畅度损失和回译前后文本差异性指标,计算所述机器翻译网络的总损失,并根据所述总损失来更新网络参数;
其中,任一语言对包括任一源语言语料样本和所述任一源语言语料样本对应的任一目标语言输出文本。
9.根据权利要求8所述的机器翻译方法,其特征在于,确定任一训练输出文本对应的流畅度损失和回译前后文本差异性指标,包括:
通过所述任一训练输出文本对应的语言模型来对所述任一训练输出文本进行评分,得到对应的流畅度损失;
将所述任一训练输出文本通过当前机器翻译网络进行翻译,得到所述源语言语料样本对应的回译信息,并将所述回译信息与所述源语言语料样本进行比对,得到对应的回译前后文本差异性指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三星通信技术研究有限公司;三星电子株式会社,未经北京三星通信技术研究有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811126977.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种立体种植装置
- 下一篇:点云编解码方法、编解码器、编解码装置和存储介质