[发明专利]一种机器翻译方法和装置有效
申请号: | 201811354641.1 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109492233B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 邢启洲;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种机器翻译方法和装置,所述方法包括:获取用于训练神经网络模型的训练语料,所述训练语料包括多个不同长度的文本字符串;根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,一个训练语料组包括的多个文本字符串的长度在预设长度范围内,不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内;以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型;获取需要翻译的目标文本字符串;利用所述翻译模型对所述目标文本字符串进行翻译,以获得结果文本字符串。在翻译模型训练过程中不需要填充大量的PAD辅助词,提高了翻译模型的训练效率。 | ||
搜索关键词: | 一种 机器翻译 方法 装置 | ||
【主权项】:
1.一种机器翻译方法,其特征在于,所述方法包括:获取用于训练神经网络模型的训练语料,所述训练语料包括多个不同长度的文本字符串;根据所述多个不同长度的文本字符串各自的长度,将所述训练语料分为至少两个训练语料组,一个训练语料组包括的多个文本字符串的长度在预设长度范围内,不同训练语料组包括的文本字符串的长度在不重叠的预设长度范围内;以所述至少两个训练语料组为训练样本,对所述神经网络模型进行训练,以得到翻译模型;获取需要翻译的目标文本字符串;利用所述翻译模型对所述目标文本字符串进行翻译,以获得结果文本字符串。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811354641.1/,转载请声明来源钻瓜专利网。