[发明专利]一种机器翻译方法和装置有效
申请号: | 201811354641.1 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109492233B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 邢启洲;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 装置 | ||
1.一种机器翻译方法,其特征在于,所述方法包括:
获取用于训练神经网络模型的训练语料,所述训练语料包括多个不同长度的文本字符串;
根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,一个训练语料组包括的多个文本字符串的长度在预设长度范围内,不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内;
以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型;
获取需要翻译的目标文本字符串;
利用所述翻译模型对所述目标文本字符串进行翻译,以获得结果文本字符串。
2.如权利要求1所述的方法,其特征在于,在根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组之前,所述方法还包括:
确定多个用于划分所述训练语料的不重叠的预设长度范围;
根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,包括:
将所述多个不同长度的文本字符串中长度属于同一预设长度范围的多个文本字符串划分为一个训练语料组;
重复执行上述第二个步骤,直至划分过程结束,以得到至少两个训练语料组。
3.如权利要求2所述的方法,其特征在于,以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型,包括:
从所述至少两个训练语料组中确定一个训练语料组为一个预选训练语料组,并将所述预选训练语料组对应的一个预设长度范围中的最大长度确定为预选长度;
从所述预选训练语料组中随机确定不超过第一预设阈值与所述预选长度比值的最大整数数量的文本字符串为训练文本字符串;
以所述训练文本字符串为训练样本,对所述神经网络模型进行训练;
重复交替执行上述三个步骤,直至训练过程结束,得到翻译模型。
4.如权利要求3所述的方法,其特征在于,利用所述翻译模型对所述目标文本字符串进行翻译,以获得结果文本字符串,包括:
从所述多个预设长度范围中,将所述目标文本字符串的长度所属的预设长度范围确定为目标长度范围;
确定所述目标预设长度范围的最大长度;
根据所述目标文本字符串的长度与所述最大长度的差值,对所述目标文本字符串添加相应数量的PAD辅助字符;
利用所述翻译模型,对包含相应数量的PAD辅助字符的目标文本字符串进行翻译,以获得结果文本字符串。
5.如权利要求4所述的方法,其特征在于,所述翻译模型包括多个结果文本字符、各个结果文本字符的出现概率、多个结果文本字符串以及各个结果文本字符串的出现概率;利用所述翻译模型,对包含相应数量的PAD辅助字符的目标文本字符串进行翻译,以获得结果文本字符串,包括:
根据包含相应数量的PAD辅助字符的目标文本字符串,将翻译模型中出现概率最高的N个结果文本字符确定为预选文本字符串,N为大于一的整数;
根据包含相应数量的PAD辅助字符的目标文本字符串和所述N个候选文本字符串,在翻译模型中确定多个新的结果文本字符,并将所述多个新的结果文本字符与所述N个预选文本字符串分别组合成多个新的文本字符串;
将所述多个新的文本字符串中的出现概率最高的N个新的文本字符串确定为新的预选文本字符串;
判断所述N个新的预选文本字符串的最后一个文本字符是否为终止字符;
当所述N个新的候选文本字符的最后一个文本字符均不是终止字符时,重复交替执行上述第二个到第四个步骤;
当所述N个新的预选文本字符中的一个新的预选文本字符最后一个文本字符是终止字符时,将该新的预选文本字符确定为一个候选文本字符串,并将N减一作为N的新的值;
对最后一个文本字符串不是终止字符的新的预选文本字符重复交替执行上述第二个到第五个步骤,直至N的新的值为零,以得到M个候选文本字符串,M为N的原始值;
根据所述M个候选文本字符串各自的出现概率,将出现概率最高的一个候选文本字符串确定为结果文本字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811354641.1/1.html,转载请声明来源钻瓜专利网。