[发明专利]一种面向细分领域的国防军工领域机器翻译方法及系统在审
申请号: | 201910948363.0 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110705320A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 雷贺功;李斌;姚晗;晏裕生;程洁丹;孙孟阳;董文轩;江洋 | 申请(专利权)人: | 中国船舶工业综合技术经济研究院 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/35;G06K9/62 |
代理公司: | 11569 北京高沃律师事务所 | 代理人: | 刘凤玲 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 翻译 国防军工 语料 平行 文本 文本分类模型 翻译结果 文本翻译 语料库 调用 通用 | ||
本发明公开了一种面向细分领域的国防军工领域机器翻译方法及系统。所述方法在通用机器翻译模型的基础上,对语料库中的平行语料句对进行细分领域划分,训练细分领域机器翻译模型;在用户翻译时,采用训练好的SVM文本分类模型自动根据待翻译文本确定细分领域,并调用对应的细分领域机器翻译模型对所述待翻译文本进行翻译,生成细分领域翻译结果。本发明细分领域机器翻译模型由细分领域的平行语料句对进行训练,从而在面向国防军工领域的细分领域进行文本翻译时,能够显著提高细分领域机器翻译质量。
技术领域
本发明涉及机器翻译技术领域,特别是涉及一种面向细分领域的国防军工领域机器翻译方法及系统。
背景技术
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。神经机器翻译(Neural Machine Translation,NMT)是当前常用的一种机器翻译方法,这种方法基于深度学习,通过带有注意力机制(attention-based)的编码器解码器(encoder-decoder)模型,将待翻译的语句(源语句)经过编码器(encoder)编码成为一个向量,然后通过解码器(decoder)对源语句的向量进行解码,形成对应的译文(目标语句)。由于国防军工领域存在着大量的细分领域翻译需求,采用目前通用的机器翻译模型难以针对国防军工领域的细分领域进行定向优化,难以达到预期的翻译效果,因此急需训练面向不同细分领域的机器翻译模型,提高对应细分领域的翻译质量。
发明内容
本发明的目的是提供一种面向细分领域的国防军工领域机器翻译方法及系统,以解决现有的通用机器翻译模型对国防军工领域的细分领域文献翻译质量差的问题。
为实现上述目的,本发明提供了如下方案:
一种面向细分领域的国防军工领域机器翻译方法,所述方法包括:
获取语料库中的平行语料句对;所述平行语料句对包括原文和对应译文;
获取训练好的SVM文本分类模型;
采用所述训练好的SVM文本分类模型将所述平行语料句对分类到国防军工领域知识体系的各个细分领域中;
采用各个所述细分领域的平行语料句对分别训练通用机器翻译模型,生成对应的细分领域机器翻译模型;
获取待翻译文本;
采用所述SVM文本分类模型确定所述待翻译文本的细分领域;
调用与所述待翻译文本的细分领域对应的细分领域机器翻译模型对所述待翻译文本进行翻译,生成细分领域翻译结果。
可选的,在所述获取语料库中的平行语料句对之前,还包括:
获取已有的国防科技领域翻译成果;所述翻译成果为已经翻译成功的文本的原文和译文;
采用句对齐工具将篇章级的所述翻译成果划分为句子级翻译成果,并按照原文和译文对所述句子级翻译成果进行句对齐操作,生成多条平行语料句对存储在所述语料库中。
可选的,在所述获取训练好的SVM文本分类模型之前,还包括:
选取所述语料库中已经标注细分领域的多条所述平行语料句对作为训练集;
采用支持向量机SVM方法对所述训练集中的每条平行语料句对和对应的细分领域进行训练,生成训练好的SVM文本分类模型。
可选的,在所述生成细分领域翻译结果之后,还包括:
获取所述细分领域翻译结果的人工校对结果;
采用句对齐工具将所述人工校对结果划分为多条平行语料句对并存储在所述语料库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶工业综合技术经济研究院,未经中国船舶工业综合技术经济研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910948363.0/2.html,转载请声明来源钻瓜专利网。