[发明专利]基于零次学习的中泰双语语料生成方法及装置有效

专利信息
申请号: 201911338831.9 申请日: 2019-12-23
公开(公告)号: CN111144140B 公开(公告)日: 2023-07-04
发明(设计)人: 张睦 申请(专利权)人: 语联网(武汉)信息技术有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/56;G06F40/211;G06N3/0442;G06N3/08
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 张秀程
地址: 430206 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 学习 双语 语料 生成 方法 装置
【说明书】:

发明实施例提供一种基于零次学习的中泰双语语料生成方法及装置,其中方法包括:获取中文原文句子和泰文原文句子;将中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;其中,第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。本发明实施例在只存在中英双语语料和英泰双语语料的情况下,获得能够实现生成中泰双语语料的翻译模型,并且通过低资源的中泰双语语料对获得的翻译模型从两个翻译方向进行联合训练,提升模型的表现来更好的进行语料的合成。

技术领域

本发明涉及文本翻译技术领域,更具体地,涉及基于零次学习的中泰双语语料生成方法及装置。

背景技术

训练一个较高质量机器翻译模型往往需要上百万的双语平行语料。然而对于一些资源较为稀缺的双语语种对,例如中泰双语语料,机翻模型的构建往往是一个不小的挑战。

为了解决这个问题,NLP(Natural Language Processing)工程师往往会做数据合成的工作来产生更多的双语数据,再利用这些合成语料进行机翻模型的训练。由于高质量且数量众多的单语语料很容易获得,因此当前主要的合成方法是基于大量的单语语料和少量的双语语料。例如,对于中泰双语语料,利用当前已有的中泰双语构建一个基础的机翻模型,再利用此机翻模型翻译大量的中文单语成为相应的泰语,以产生合成的中泰双语;最后叠加所有的双语数据进行最终模型的训练。但目前的训练方式存在翻译准确度不够高的问题。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于零次学习的中泰双语语料生成方法及装置。

第一个方面,本发明实施例提供一种基于零次学习的中泰双语语料生成方法,包括:

获取中文原文句子和泰文原文句子;

将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;

其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。

进一步地,所述第一翻译模型和第二翻译模型的训练方法包括:

基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,基于零次学习以泰文到英文的语料和英文到中文的语料训练所述第二翻译模型;

将训练后的所述第一翻译模型的输出端和训练后的所述第二翻译模型的输入端连接,获得第一联合模型,根据中文到泰文的语料训练所述第一联合模型;

将训练后的所述第一联合模型中的第二翻译模型的输出端与训练后的所述第一联合模型中的第一翻译模型的输入锻炼连接,获得第二联合模型,根据泰文到中文的语料训练所述第二联合模型,获得训练完成的第一翻译模型和第二翻译模型。

进一步地,所述基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,包括:

将中文到英文的语料与英文到泰文的语料进行合并,获得第一数据集,在所述第一数据集中每个语料的原文中增加标识信息,所述标识信息用于表征所述原文指定的译文语种;

从所述第一数据集中选择语料,根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,计算所述预测的译文与所述原文的真实译文之间的损失值,根据所述损失值更新所述第一翻译模型中的参数,直至所述损失值小于预设阈值或者训练次数达到预设次数。

进一步地,所述根据中文到泰文的语料训练所述第一联合模型,具体为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911338831.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top