[发明专利]一种翻译模型的训练方法及装置、翻译方法及装置在审
申请号: | 202010215046.0 | 申请日: | 2020-03-24 |
公开(公告)号: | CN113449529A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 李长亮;郭馨泽 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司;北京金山软件有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/284;G06F40/205 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 翻译 模型 训练 方法 装置 | ||
本申请提供一种翻译模型的训练方法及装置、翻译方法及装置,翻译模型包括:编码器和语言模型,语言模型采用目标语言的单语语料预训练得到;训练方法包括:将源语言样本语句输入至编码器,得到与源语言样本语句对应的第一编码向量;将与源语言样本语句对应的第一编码向量和目标语言样本语句输入至语言模型,得到语言模型输出的第一解码向量以及第一解码向量对应的误差;基于第一解码向量对应的误差调整语言模型和编码器的参数,直至达到训练停止条件,从而有效解决在双语语料资源稀缺的情况下导致翻译模型训练不充分,进而获得的翻译结果质量低下的问题,使翻译模型在低资源翻译任务下有更好的表现,进一步的,提高了翻译结果的质量。
技术领域
本申请涉及互联网技术领域,特别涉及一种翻译模型的训练方法及装置、翻译方法及装置、计算设备和计算机可读存储介质。
背景技术
随着计算机运算能力的提升,神经网络的应用越来越广泛,例如构建端到端的翻译模型,以实现源语言到目标语言的转换。一般地,翻译模型的架构包括:编码器(encoder)—解码器(decoder)。编码器实现对待翻译的源语句进行编码生成向量,解码器实现对源语句的向量进行解码生成对应的目标语句。
目前,通常的神经机器翻译任务仅依赖于端到端翻译模型自身的编码器和解码器,例如transformer模型。翻译模型需要大规模的双语语料进行训练,但是在训练语料较少的情况下,翻译模型很难得到有效的训练,从而获得的翻译效果质量低下。
发明内容
有鉴于此,本申请实施例提供了一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例提供了一种翻译模型的训练方法,所述翻译模型包括:编码器和语言模型,所述语言模型采用目标语言的单语语料预训练得到;
所述训练方法包括:
将源语言样本语句输入至编码器,得到与所述源语言样本语句对应的第一编码向量;
将与所述源语言样本语句对应的第一编码向量和目标语言样本语句输入至语言模型,得到所述语言模型输出的基于目标语言的第一解码向量以及所述语言模型输出的第一解码向量对应的误差;
基于所述语言模型输出的第一解码向量的误差调整所述语言模型和所述编码器的参数,直至达到训练停止条件。
可选地,所述编码器包括m个顺次连接的编码层,其中,m为正整数;
将源语言样本语句输入至编码器,得到与所述源语言样本语句对应的第一编码向量,包括:
S102、将所述源语言样本语句输入至第一个编码层,生成第一个编码层的第一编码向量;
S104、将第j-1个所述编码层的第一编码向量输入至第j个编码层,得到第j个所述编码层输出的第一编码向量,其中2≤j≤m;
S106、判断j是否等于m,若是,执行步骤S108,若否,执行步骤S110;
S108、基于m个编码层的第一编码向量得到与所述源语言样本语句对应的第一编码向量;
S110、将j自增1,继续执行步骤S104。
可选地,基于m个编码层的第一编码向量得到与源语言样本语句对应的第一编码向量,包括:
将第m个编码层的第一编码向量作为与所述源语言样本语句对应的第一编码向量;或
将m个编码层的第一编码向量进行加权求和,得到与所述源语言样本语句对应的第一编码向量。
可选地,所述语言模型包括n个顺次连接的解码层,其中,n为正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司;北京金山软件有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司;北京金山软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010215046.0/2.html,转载请声明来源钻瓜专利网。