[发明专利]一种针对机器翻译的译文评估方法及装置有效

申请号：	201811306229.2	申请日：	2018-11-05
公开（公告）号：	CN109446537B	公开（公告）日：	2022-11-25
发明（设计）人：	詹文法;邵志伟;陶鹏程;张振林;刘德阳	申请（专利权）人：	安庆师范大学
主分类号：	G06F40/58	分类号：	G06F40/58
代理公司：	合肥市浩智运专利代理事务所(普通合伙) 34124	代理人：	丁瑞瑞
地址：	246133 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对机器翻译译文评估方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种针对机器翻译的译文评估方法及装置，所述方法包括：获取语料库中的若干条语料，并将每一条语料中包含的上下文词向量的拼接结果；并对所述若干条语料中包含的不同词性的词语的词向量进行初始化；将所述拼接结果以及所述词向量作为CBOW模型的输入，获取训练后的CBOW模型；获取每一条语料的目标词，并使用训练后的CBOW模型进行翻译；获取待评估模型针对所述目标词的译文，并根据所述待评估模型对应的译文与训练后的CBOW模型对应的译文之间的相似度，评估待评估模型译文的准确度。应用本发明实施例，可以自动对译文结果进行准确性评估。

技术领域

本发明涉及一种译文评估方法及装置，更具体涉及一种针对机器翻译的译文评估方法及装置。

背景技术

随着现代社会的发展，人类对语言之间的转换需求越来越大。在实际应用中，传统机器翻译以规则为基础，特点是基于语法和语义理论，通过分析上下文的语法搭配关系得到翻译结果。但是由于规则不可能涵盖所有的句子，传统机器翻译大多是句法的直译或句型的转换。

随着人工智能技术的不断发展，基于神经网络的表示学习技术开始在各个领域崭露头角。尤其在以图像识别和语音识别为主的多个任务上，基于表示学习的方法在性能上均超过了传统的以统计学习为主的方法。现代机器翻译方法是以“双语库”为基础，特点是利用一个包含很多句型的双语语料库，在翻译的时候根据语料库中的句型抽取与所输入句子相类似的例句，然后参照双语句型把源语言转化为目标语言。

自然语言是人类智慧的抽象表达，很难通过已有的数据结构表示出来。在自然语言处理过程中，数据的基本单位是字或词。类似于“苹果”，既可以表示一种水果，也可以表示“苹果公司”。“麦克风”和“话筒”表示的是一种物品，但从字面上无法建立起正确的联系。因此，目前大多数翻译系统都能将语句的大致意思正确翻译。但是不同语言之间的词、句用法有着显著差别，翻译的结果大多存在语序错误、词语混用、错用等问题。尤其对于长句，机器翻译不能达到更好的准确度，导致现有技术存在翻译的结果仍需人工评估的技术问题。

发明内容

本发明所要解决的技术问题在于提供了一种针对机器翻译的译文评估方法及装置，以解决现有技术中存在的翻译的结果仍需人工评估的技术问题。

本发明是通过以下技术方案解决上述技术问题的：

本发明实施例提供了一种针对机器翻译的译文评估方法，所述方法包括：

获取语料库中的若干条语料，并将每一条语料中包含的上下文词向量的拼接结果；并对所述若干条语料中包含的不同词性的词语的词向量进行初始化；

将所述拼接结果以及所述词向量作为CBOW模型的输入，获取训练后的 CBOW模型；

获取每一条语料的目标词，并使用训练后的CBOW模型进行翻译；

获取待评估模型针对所述目标词的译文，并根据所述待评估模型对应的译文与训练后的CBOW模型对应的译文之间的相似度，评估待评估模型译文的准确度。

可选的，所述对所述若干条语料中包含的不同词性的词语的词向量进行初始化，包括：

分别使用互不重合的取值范围，对所述若干条语料中包含的不同词性的词语的词向量进行初始化。

可选的，在所述将所述拼接结果以及所述词向量作为CBOW模型的输入，获取训练后的CBOW模型之前，所述方法还包括：

将每一条语料中除设定的标点符号以外的标点符号去除，其中，设定的标点符号包括：用于表达语料的语气的标点符号、语料结束的标点符号中的一种或组合。