[发明专利]多语言翻译模型的生成方法、翻译方法及设备有效
申请号: | 201811012412.1 | 申请日: | 2018-08-31 |
公开(公告)号: | CN110874537B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 朱长峰;于恒 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 尹红敏 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 翻译 模型 生成 方法 设备 | ||
本发明公开了一种多语言翻译模型的生成方法、翻译方法及设备,多语言翻译模型的生成方法包括:构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。利用本发明实施例可生成多语言翻译模型,执行多语言语句的翻译任务。
技术领域
本发明涉及计算机领域,尤其是涉及一种多语言翻译方法、翻译方法及其装置、设备和计算机可读存储介质。
背景技术
机器翻译是指利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的技术。目前,基于语料库的机器翻译技术代表着该领域的主流技术趋势,诸如统计机器翻译(Statistical Machine Translation,SMT)及神经网络机器翻译(Neural Machine Translation,NMT),均依赖于含有大量训练数据的语料库来进行对翻译模型的训练。双语语料是这类语料库中的一种语料数据,无论对于SMT,还是NMT,绝大多数机器翻译技术均是基于双语语料进行模型训练。然而,由于双语语料仅是特定语言对(例如中-英、英-俄)的互译语料,因此训练得到的机器翻译模型也仅针对该特定语言对的翻译任务,对于第三种语言则无法做出应有的翻译。
另一方面,一直以来,机器翻译领域中翻译模型所需的训练语料属于稀缺资源。举例来讲,目前认为,高质量的双语互译语料中,中-英双语互译句对有2亿条,英-俄双语互译句对有1亿条,而中-俄的双语互译句对仅有200万条。也就是说,与中-英、英-俄的双语语料库数据量相比,中-俄双语语料库的数据量明显偏少,属于稀缺资源语言对,以至于针对中-俄双语的机器翻译模型的训练无法达到预期,翻译质量堪忧。
对于如何实现稀缺资源语言对的源语言与目标语言(例如中-俄)之间的翻译,目前已知的处理方式有两种:第一种方式是寻找一种桥接语言(例如英文),对从源语言到桥接语言(例如中-英)的翻译模型和从桥接语言到目标语言(例如英-俄)的翻译模型,分别独立地进行训练,之后再进行两次翻译(源语言翻译为桥接语言、桥接语言翻译为目标语言),通过桥接的方式,最终完成源语言到目标语言的翻译;第二种方式是基于传统的神经机器翻译模型,强行将所有的语言对语料(例如中-英、英-俄以及中-俄)进行共同训练,最终得到一个涉及多语言(例如中文、英文和俄文)的机器翻译模型。
以上两种处理方式虽然能够在一定程度上实现例如三种语言的翻译,但是,由于该两种处理方式本身存在的缺陷,其翻译质量与期望效果相差甚远。对于第一种方式,两次翻译容易带来错误叠加,并且如果两个翻译模型采用的训练数据来自完全不同的领域,可导致错误叠加的问题加剧,此外两次翻译也更加耗时;对于第二种方式,将多语言对语料一起进行训练,当不同语言之间的语言特点或构成存在较大差别(例如语序差别很大)时,传统的多语言翻译框架将无法解决由语言特点不同所带来的翻译知识冲突问题,兼容性得不到保证。
发明内容
有鉴于此,本发明提出一种多语言机器翻译方法、翻译方法及其装置、设备和计算机可读存储介质,可以用来解决稀缺资源语言对的翻译问题。
第一方面,本发明提供一种多语言翻译模型的生成方法,包括:
构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;
将所述双语句对作为训练样本,对预设的多语言翻译网络进行训练,以生成多语言翻译模型,其中,所述多语言翻译模型适于将给定的源语言语句转换为中间语义表示,并根据所述中间语义表示将所述源语言语句翻译为目标语言语句。
第二方面,本发明提供一种多语言翻译模型生成装置,包括:
语料库构建模块,用于构建语料库,所述语料库包括多个双语句对,所述双语句对包括互译的两个语句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811012412.1/2.html,转载请声明来源钻瓜专利网。