[发明专利]机器翻译效果评测方法、装置、设备及存储介质在审
申请号: | 202010965988.0 | 申请日: | 2020-09-15 |
公开(公告)号: | CN112052693A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 罗佩 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 效果 评测 方法 装置 设备 存储 介质 | ||
1.一种机器翻译效果评测方法,其特征在于,包括:
获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;
对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;
将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;
基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。
2.根据权利要求1所述的方法,其特征在于,在所述获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文之前,该方法还包括:
对待翻译文本进行子句划分,得到待翻译文本包含的每一子句。
3.根据权利要求2所述的方法,其特征在于,所述对待翻译文本进行子句划分,包括:
以待翻译文本中包含的标点作为子句划分界限,将待翻译文本划分为若干子句;
或,
遍历待翻译文本,判断句子在未达到设定长度之前是否存在标点,若存在,则将标点之前划分为一个子句,并继续向后遍历待翻译文本,若不存在,则在达到设定长度时将遍历的设定长度的文本划分为一个子句,并继续向后遍历待翻译文本。
4.根据权利要求1所述的方法,其特征在于,所述对每一子句的机器译文进行长度约束,包括:
确定每一子句的长度约束量,所述长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度;
基于每一子句的长度约束量,对每一子句的机器译文进行长度约束。
5.根据权利要求4所述的方法,其特征在于,所述确定每一子句的长度约束量,包括:
按照每一子句的划分方式,确定与所述划分方式对应的长度约束量,以得到每一子句的长度约束量。
6.根据权利要求5所述的方法,其特征在于,
若子句是按照标点划分得到,则对应的长度约束量为第一设定长度;
若子句是按照遍历文本达到设定长度后划分得到,则对应的长度约束量为第二设定长度,所述第二设定长度大于所述第一设定长度。
7.根据权利要求4所述的方法,其特征在于,所述基于每一子句的长度约束量,对每一子句的机器译文进行长度约束,包括:
基于每一子句的长度约束量,删除每一子句的机器译文中末尾若干长度的译文,所述若干长度的译文为所述子句中末尾所述长度约束量个分词的翻译结果;
或,
基于每一子句的长度约束量,删除每一子句的机器译文中末尾所述长度约束量个分词。
8.根据权利要求1所述的方法,其特征在于,所述将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失,包括:
判断每一子句的约束后机器译文,是否存在于下一相邻子句的机器译文中;若存在,则确定所述子句约束成功,否则,确定所述子句约束失败;
基于所述待翻译文本中各子句的约束成功和失败情况,确定所述待翻译文本的机器译文的翻译约束损失。
9.根据权利要求1所述的方法,其特征在于,所述基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分,包括:
基于所述翻译约束损失及所述参考译文包含的子句数量,确定所述待翻译文本的机器译文的翻译约束损失系数;
将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率;
利用所述翻译约束损失系数,对所述匹配准确率进行惩罚,得到机器译文评分。
10.根据权利要求9所述的方法,其特征在于,所述将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率,包括:
确定所述待翻译文本的机器译文与所述参考译文的n元文法匹配准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010965988.0/1.html,转载请声明来源钻瓜专利网。