[发明专利]一种机器翻译方法和装置有效

申请号：	201811354641.1	申请日：	2018-11-14
公开（公告）号：	CN109492233B	公开（公告）日：	2023-10-17
发明（设计）人：	邢启洲;李健;张连毅;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06F40/58	分类号：	G06F40/58
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种机器翻译方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种机器翻译方法和装置，所述方法包括：获取用于训练神经网络模型的训练语料，所述训练语料包括多个不同长度的文本字符串；根据所述多个不同长度的文本字符串各自的长度，将所述训练语料分为至少两个训练语料组，一个训练语料组包括的多个文本字符串的长度在预设长度范围内，不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内；以所述至少两个训练语料组为训练样本，对所述神经网络模型进行训练，以得到翻译模型；获取需要翻译的目标文本字符串；利用所述翻译模型对所述目标文本字符串进行翻译，以获得结果文本字符串。在翻译模型训练过程中不需要填充大量的PAD辅助词，提高了翻译模型的训练效率。

技术领域

本申请涉及机器翻译技术领域，特别是涉及一种机器翻译方法和装置。

背景技术

神经机器翻译是指先构建翻译模型，再利用预先构建的翻译模型，将一种语言的文本字符串翻译成另一种语言的文本字符串。相关技术中，首先，获取训练语料，训练语料包括用于训练的多个不同长度的文本字符串，将训练语料中的每个文本字符串转变成一个固定长度的文本字符串，并将转变后得到的多个固定长度的文本字符串作为一批样本，利用这一批样本对神经网络模型进行训练，构建翻译模型。当用于训练的文本字符串的长度小于上述固定长度时，则需要填充一定数量的PAD辅助字符，使得用于训练的文本字符串与填充的一定数量的PAD辅助字符的长度之和等于上述固定长度；其中，PAD辅助字符包含无用信息。

通常情况下，用于训练的文本字符串的长度是随机的，因而在翻译模型构建过程中需要填充的PAD辅助字符的数量也是随机的，如果用于训练的字符串的长度与上述固定长度相差较大，则需要填充大量的PAD辅助字符，因而需要将包含大量的PAD辅助字符的文本字符串作为训练神经网络的样本，导致在翻译模型的构建程中需要处理大量的PAD辅助字符，花费的时间较多。

发明内容

为解决上述问题，本申请提供一种机器翻译方法和装置。

根据本申请的第一个方面，提供了一种机器翻译方法，所述方法包括：

获取用于训练神经网络模型的训练语料，所述训练语料包括多个不同长度的文本字符串；

根据所述多个不同长度的文本字符串各自的长度，将所述训练语料分为至少两个训练语料组，一个训练语料组包括的多个文本字符串的长度在预设长度范围内，不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内；

以所述至少两个训练语料组为训练样本，对所述神经网络模型进行训练，以得到翻译模型；

获取需要翻译的目标文本字符串；

利用所述翻译模型对所述目标文本字符串进行翻译，以获得结果文本字符串。

可选的，在根据所述多个不同长度的文本字符串各自的长度，将所述训练语料分为至少两个训练语料组之前，所述方法还包括：

确定多个用于划分所述训练语料的不重叠的预设长度范围；

根据所述多个不同长度的文本字符串各自的长度，将所述训练语料分为至少两个训练语料组，包括：

将所述多个不同长度的文本字符串中长度属于同一预设长度范围的多个文本字符串划分为一个训练语料组；