[发明专利]一种机器翻译方法和装置有效
申请号: | 201811354641.1 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109492233B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 邢启洲;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 装置 | ||
本申请提供了一种机器翻译方法和装置,所述方法包括:获取用于训练神经网络模型的训练语料,所述训练语料包括多个不同长度的文本字符串;根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,一个训练语料组包括的多个文本字符串的长度在预设长度范围内,不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内;以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型;获取需要翻译的目标文本字符串;利用所述翻译模型对所述目标文本字符串进行翻译,以获得结果文本字符串。在翻译模型训练过程中不需要填充大量的PAD辅助词,提高了翻译模型的训练效率。
技术领域
本申请涉及机器翻译技术领域,特别是涉及一种机器翻译方法和装置。
背景技术
神经机器翻译是指先构建翻译模型,再利用预先构建的翻译模型,将一种语言的文本字符串翻译成另一种语言的文本字符串。相关技术中,首先,获取训练语料,训练语料包括用于训练的多个不同长度的文本字符串,将训练语料中的每个文本字符串转变成一个固定长度的文本字符串,并将转变后得到的多个固定长度的文本字符串作为一批样本,利用这一批样本对神经网络模型进行训练,构建翻译模型。当用于训练的文本字符串的长度小于上述固定长度时,则需要填充一定数量的PAD辅助字符,使得用于训练的文本字符串与填充的一定数量的PAD辅助字符的长度之和等于上述固定长度;其中,PAD辅助字符包含无用信息。
通常情况下,用于训练的文本字符串的长度是随机的,因而在翻译模型构建过程中需要填充的PAD辅助字符的数量也是随机的,如果用于训练的字符串的长度与上述固定长度相差较大,则需要填充大量的PAD辅助字符,因而需要将包含大量的PAD辅助字符的文本字符串作为训练神经网络的样本,导致在翻译模型的构建程中需要处理大量的PAD辅助字符,花费的时间较多。
发明内容
为解决上述问题,本申请提供一种机器翻译方法和装置。
根据本申请的第一个方面,提供了一种机器翻译方法,所述方法包括:
获取用于训练神经网络模型的训练语料,所述训练语料包括多个不同长度的文本字符串;
根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,一个训练语料组包括的多个文本字符串的长度在预设长度范围内,不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内;
以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型;
获取需要翻译的目标文本字符串;
利用所述翻译模型对所述目标文本字符串进行翻译,以获得结果文本字符串。
可选的,在根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组之前,所述方法还包括:
确定多个用于划分所述训练语料的不重叠的预设长度范围;
根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,包括:
将所述多个不同长度的文本字符串中长度属于同一预设长度范围的多个文本字符串划分为一个训练语料组;
重复执行上述第二个步骤,直至划分过程结束,以得到至少两个训练语料组。
可选的,以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型,包括:
从所述至少两个训练语料组中确定一个训练语料组为一个预选训练语料组,并将所述预选训练语料组对应的一个预设长度范围中的最大长度确定为预选长度;
从所述预选训练语料组中随机确定不超过第一预设阈值与所述预选长度比值的最大整数数量的文本字符串为训练文本字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811354641.1/2.html,转载请声明来源钻瓜专利网。