[发明专利]一种基于人机交互机器翻译系统及其自动优化方法有效
申请号: | 202110040304.0 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112836525B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 刘均伟;梁钦;段轶;张潺;陈慷 | 申请(专利权)人: | 江苏金陵科技集团有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/194;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 邱欢欢 |
地址: | 210008*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人机交互 机器翻译 系统 及其 自动 优化 方法 | ||
1.一种基于人机交互机器翻译系统的自动优化方法,其特征在于,包括:
采用基础平行语料库训练机器翻译模型,获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库,所述人工校译平行语料库包括目标语言端句子和原语言端句子;
构建回环翻译模型,将所述原语言端句子输入至回环翻译模型,生成多个同义句;
根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述目标语言端句子一一结成句对,生成回环平行语料库;
构建文本生成模型,将所述术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;
将所述目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;
构建回译模型,将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型,生成回译平行语料库;
将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练;
其中,所述构建回环翻译模型,包括:选取与所述原语言端句子相对应的中间语言,构建从原语言到中间语言的机器翻译模型,然后构建从中间语言到同义语言的机器翻译模型;
所述生成回译平行语料库,包括:利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语料库中的目标语言句子逐一翻译成原语言句子,然后将所述原语言句子和对应的目标语言句子一一结成句对,生成回译平行语料库。
2.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,根据所述多个同义句与原语言端句子的相似度,挑选出同义句,包括:
将原语言端句子表示为向量,同义句表示为向量;
根据相似度计算公式计算出similarity值,所述相似度计算公式为
,其中,;
若similiarity值 0.95,则挑选出所述同义句。
3.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,还包括:从所述人工校译平行语料库中随机抽取若干句对,并对所述句对进行3-5倍重复扩充后,输入至机器翻译模型进行训练。
4.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法,其特征在于,所述文本生成模型采用通用神经网络技术及其组合,或采用GPT2/GPT3文本生成技术及其变种。
5.一种人机交互机器翻译系统,其特征在于,包括:
语料库管理模块,用于存储基础平行语料库和人工校译平行语料库,并基于所述人工校译平行语料库生成回环平行语料库和目标语言单语语料库,同时基于所述目标语言单语语料库生成回译平行语料库,所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后生成总语料库;
在线训练模块,用于接收所述总语料库,并利用所述总语料库对机器翻译模型进行训练;
机器翻译模块,用于加载训练后的机器翻译模型,以提供翻译服务;
机器辅助翻译模块,用于对机器翻译模块的输出结果提供人工校译功能;
其中,所述回环平行语料库通过以下步骤生成:构建回环翻译模型,将所述人工校译平行语料库中的原语言端句子输入至回环翻译模型,生成多个同义句;根据所述多个同义句与原语言端句子的相似度,挑选出同义句,并将挑选出的同义句与所述人工校译平行语料库中的目标语言端句子一一结成句对,生成回环平行语料库;
所述构建回环翻译模型,包括:选取与所述原语言端句子相对应的中间语言,构建从原语言到中间语言的机器翻译模型,然后构建从中间语言到同义语言的机器翻译模型;
所述目标语言单语语料库包括第一目标语言单语语料库和第二目标语言单语语料库,其通过以下步骤生成:构建文本生成模型,将术语库中的术语输入至文本生成模型,生成一系列包含所述术语的用户领域句子,并将所述用户领域句子汇总后生成第一目标语言单语语料库;将所述人工校译平行语料库中的目标语言端句子输入至文本生成模型,生成用户领域文章,并将所述用户领域文章拆分,生成第二目标语言单语语料库;
所述回译平行语料库通过以下步骤生成:构建回译模型,利用所述回译模型将目标语言单语语料库中的目标语言句子逐一翻译成原语言句子;将所述原语言句子和对应的目标语言句子一一结成句对,生成回译平行语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金陵科技集团有限公司,未经江苏金陵科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110040304.0/1.html,转载请声明来源钻瓜专利网。