[发明专利]机器翻译的校准优化方法、装置与电子设备有效
申请号: | 201910066709.4 | 申请日: | 2019-01-24 |
公开(公告)号: | CN109670191B | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06V30/418;G06V30/40;G06V30/19 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 校准 优化 方法 装置 电子设备 | ||
1.一种机器翻译的校准优化方法,其特征在于,包括:
基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;
其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文;
利用所述训练样本,训练获取所述训练完成的多任务学习的神经网络模型的步骤具体包括:
对于任一所述训练样本,基于该训练样本,利用所述基础多任务学习的神经网络模型,输出该训练样本的预测机器翻译质量和预测后翻译文;
分别将所述预测机器翻译质量与所述样本机器翻译质量标签、所述预测后翻译文和所述样本后编辑文进行比较,获取预测误差;
基于所述预测误差,利用反向传播算法和梯度下降算法,更新所述基础多任务学习的神经网络模型的参数,并将更新后的基础多任务学习的神经网络模型作为下一个训练样本的基础多任务学习的神经网络模型,直至获取所述训练完成的多任务学习的神经网络模型;
在利用所述训练样本,训练获取所述训练完成的多任务学习的神经网络模型的步骤之前,还包括:
获取对所述样本机器译文的后编辑成本,并基于所述后编辑成本和所述样本原文,通过归一化处理和分段处理,获取所述样本机器翻译质量标签;
所述后编辑成本表示对所述样本机器译文进行后编辑,获取所述样本后编辑文所花费的成本;
所述基于所述后编辑成本和所述样本原文,通过归一化处理和分段处理,获取所述样本机器翻译质量标签的步骤具体包括:
对所述后编辑成本和所述样本原文的长度做相除运算,并对相除运算的结果进行归一化处理;
基于归一化处理结果的取值,将所述归一化处理结果转换为不同等级的所述样本机器翻译质量标签。
2.根据权利要求1所述的方法,其特征在于,所述进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑的步骤具体包括:
对所述目标文档的原文和机器译文分别进行分词处理,并将分词处理的结果输入训练好的原文和译文词向量模型,提取原文词向量和机器译文词向量;
将所述原文词向量和所述机器译文词向量输入所述训练完成的多任务学习的神经网络模型,以输出机器翻译质量评估结果和对所述机器译文的自动后编辑文。
3.根据权利要求2所述的方法,其特征在于,在所述将分词处理的结果输入训练好的原文和译文词向量模型的步骤之前,还包括:
分别获取原文语种和译文语种的标准单语语料集,并分别对所述原文语种和所述译文语种的标准单语语料进行分词处理;
基于分词处理的标准单语语料,采用Skip-Gram算法,训练基础原文和译文词向量模型,并设置模型超参数,获取所述训练好的原文和译文词向量模型;
其中,所述原文语种是与所述目标文档的原文对应的语种,所述译文语种是与所述目标文档的机器译文对应的语种。
4.根据权利要求1所述的方法,其特征在于,所述获取对所述样本机器译文的后编辑成本的步骤具体包括:
在对所述样本机器译文进行后编辑获取所述样本后编辑文的过程中,通过统计进行后编辑所敲击键盘的总次数,计算所述后编辑成本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910066709.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:翻译模型构建方法和装置
- 下一篇:一种基于BIM的构件ID批量提取方法