[发明专利]一种基于句对的机器翻译引擎测评优选方法及系统在审
申请号: | 201910772953.2 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110472257A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 张井;陈件;宋德敏 | 申请(专利权)人: | 南京题麦壳斯信息科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 53113 昆明合众智信知识产权事务所 | 代理人: | 叶春娜<国际申请>=<国际公布>=<进入 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译引擎 加权和 翻译 文本 机器翻译 翻译结果 翻译文件 用户提供 优选服务 求和 测评 等长 加权 维度 优选 整合 工作量 输出 服务 语言 | ||
1.一种基于句对的机器翻译引擎测评优选方法,其中所述机器翻译引擎具有多个,其特征在于,所述方法包括:
步骤一、对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对;
步骤二、对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域;
步骤三、根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分;
步骤四、对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值;
步骤五、所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果;
步骤六、将所述句的翻译结果整合输出所述目标语言的翻译文本。
2.根据权利要求1所述的基于句对的机器翻译引擎测评优选方法,其特征在于,所述多个维度包括:历史数据分析和自定义测评;
其中,历史数据的字段包括源语言文本、机器翻译结果、人工PE结果、所选用的机器翻译和编辑时间;
所述历史数据分析包括对用户喜爱度、平均编辑代价、平均编辑时间这三个方面进行测评分析;
所述自定义测评包括对参考译文测评、关键字测评和语言模型困惑度测评这三个方面进行测评分析。
3.根据权利要求2所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述历史数据分析中的所述用户喜爱度的测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;抽取上述划分的领域为确定的领域的数据作为测评集;
2)统计在所述测评集上用户选择所述各机器翻译引擎翻译的句对数;
3)根据所述各机器翻译引擎翻译的句对数,对所述各机器翻译引擎做升序排序;
4)上述升序排序中,所述各机器翻译引擎的序列即为该机器翻译引擎在用户喜爱度上的得分。
4.根据权利要求3所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述历史数据分析中的所述平均编辑代价的测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集;
2)根据机器翻译引擎的不同,分别计算平均编辑代价;
其中,平均编辑代价定义为:
其中len(x)为字符串x的长度,MT(x)为句段x机器翻译的结果,PE(x)为句段x人工修改的结果,ED(x)句段x机器翻译结果到人工修改结果的编辑距离。
3)根据平均编辑代价,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑代价上的得分。
5.根据权利要求4所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述历史数据分析中的所述平均编辑时间的测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集;
2)根据机器翻译引擎的不同,分别计算平均编辑时间;
其中,平均编辑时间定义为:
其中ET(x)句段x译员从开始翻译到确认所使用的时间;
3)根据平均编辑时间,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑时间上的得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京题麦壳斯信息科技有限公司,未经南京题麦壳斯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910772953.2/1.html,转载请声明来源钻瓜专利网。