[发明专利]一种机器翻译质量评估方法和系统在审
申请号: | 202010601578.8 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111797639A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 蔡洁 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/51 | 分类号: | G06F40/51;G06F40/284 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 质量 评估 方法 系统 | ||
本发明实施例提供一种机器翻译质量评估方法和系统,所述方法包括:将候选译文进行分词,获取候选译文词表并进行词嵌入,获取候选译文词向量表;将参考译文进行分词,获取参考译文词表并进行词嵌入,获取参考译文词向量表;获取候选译文词向量表中每个词向量与参考译文词向量表中每个词向量之间夹角的余弦值,并选取最大词短语余弦值,根据最大词短语余弦值和候选译文词向量表中词向量的数量求取平均余弦值;根据候选译文词向量表和参考译文词向量表的长度求取长度惩罚因子,根据长度惩罚因子和平均余弦值获取最终评估得分;使得在评估时能够考虑到同义词或相似表达的情况,能够很好地处理形态丰富的语句,完善了翻译质量的评估标准。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种机器翻译质量评估方法和系统。
背景技术
近年来,在自然语言研究领域中,评测问题越来越受到广泛的重视,可以说,评测是整个自然语言领域中最核心和关键的部分。而机器翻译评价对于机器翻译的研究和发展具有重要意义,机器翻译系统的开发者可以通过评测得知系统存在的问题而不断改进,用户也可以根据评测报告选择满足自己需求的产品,而对于机器翻译的研究人员来说,评测能够给他们的技术发展方向提供最可靠的依据。
早在90年代初,美国国家自然基金委员会和欧盟就资助的国际语言工程标准(ISLE)计划就专门设立了EWG(Evaluation Working Group)机器翻译评测工作组。1992年至1994年之间,美国国防部高级研究计划署(DARPA)专门组织一批专家从翻译译文的忠实度、流利度和信息量三个角度对当时的法英、日英、西英的机器翻译系统进行了大规模的评测。
目前比较流行的自动评测方法是是IBM提出的BLEU算法,BLEU(bilingualevaluation understudy),简单来说,BLEU算法的思想就是机器翻译的译文越接近人工翻译的结果,它的翻译质量就越高。所以评测算法就是如何定义机器翻译译文与参考译文之间的相似度。
但是,由于BLEU算法实质上是对两个句子的共现词频进行计算,在计算过程中过于追求两个句子中的词的一致程度,导致在评估时没有考虑同义词或相似表达的情况,不能很好处理形态丰富的语句,使得一些合理翻译被否定。
发明内容
本发明实施例提供一种机器翻译质量评估方法和系统,用以解决现有技术中没有考虑同义词或相似表达的情况,不能很好处理形态丰富的语句,使得一些合理翻译被否定的缺陷。
第一方面,本发明实施例提供一种机器翻译质量评估方法,包括:
将候选译文进行分词处理,获取候选译文词表,将所述候选译文词表通过词映射进行词嵌入,获取候选译文词向量表;
将参考译文进行分词处理,获取参考译文词表,将所述参考译文词表通过词映射进行词嵌入,获取参考译文词向量表;
分别获取所述候选译文词向量表中每个词向量与所述参考译文词向量表中每个词向量之间夹角的余弦值,并选取所述余弦值中最大值为最大词短语余弦值,根据所述最大词短语余弦值和所述候选译文词向量表中词向量的数量求取平均余弦值;
根据所述候选译文词向量表和所述参考译文词向量表的长度,获取长度惩罚因子,根据所述长度惩罚因子和所述平均余弦值获取最终评估得分。
可选地,所述分别获取所述候选译文词向量表中每个词向量与所述参考译文词向量表中每个词向量之间夹角的余弦值,并选取其中最大值为最大词短语余弦值具体包括:
获取所述候选译文词向量表中相邻的小于等于预设数目N的候选译文词向量的和向量,获取所述参考译文词向量表中相邻的小于等于预设数目N的参考译文词向量的和向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010601578.8/2.html,转载请声明来源钻瓜专利网。