[发明专利]基于多级翻译模型生成中泰双语语料的方法及装置有效
申请号: | 201911350770.8 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111178097B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 张睦 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/0455;G06N3/0442;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张秀程 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多级 翻译 模型 生成 双语 语料 方法 装置 | ||
1.一种基于多级翻译模型生成中泰双语语料的方法,其特征在于,包括:
获取中文原文句子和泰文原文句子;
将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成;
所述第一两级翻译模型和所述第二两级翻译模型的训练方法包括:
根据所述高资源的中英双语语料训练用于将中文原文翻译为英文译文的中英翻译模型和用于将英文原文翻译为中文译文的英中翻译模型;根据所述高资源的泰英双语语料训练用于将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型;
分别构建第一三级翻译模型和第二三级翻译模型,所述第一三级翻译模型沿数据传输方向包括所述中英翻译模型、所述英泰翻译模型和所述泰英翻译模型,所述第二三级翻译模型沿数据传输方向包括所述泰英翻译模型、所述英中翻译模型和所述中英翻译模型,根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型;
将训练好的第二三级翻译模型中的中英翻译模型和训练好的第一三级翻译模型中的英泰翻译模型组成所述第一两级翻译模型,将训练好的第一三级翻译模型中的泰英翻译模型和训练好的第二三级翻译模型中的英中翻译模型组成所述第二两级翻译模型。
2.根据权利要求1所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的中文原文输入至所述第一三级翻译模型进行训练,获取所述第一三级翻译模型中的英泰翻译模型输出的泰文译文以及泰英翻译模型输出的英文译文;
根据所述英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异,对所述英泰翻译模型的参数进行调整;根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异,对所述泰英翻译模型的参数进行调整。
3.根据权利要求1或2所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的泰文原文输入至所述第二三级翻译模型,获取所述第二三级翻译模型中的英中翻译模型输出的中文译文以及中英翻译模型输出的英文译文;
根据所述英中翻译模型输出的中文译文与所述泰文原文的真实中文译文间的差异,对所述英中翻译模型的参数进行调试;根据所述中英翻译模型输出的英文翻译模型输出英文译文与所述第二三级翻译模型中的泰英翻译模型输出的英文译文间的差异,对所述中英翻译模型的参数进行调整。
4.根据权利要求1所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型均包括编码器和解码器;
其中,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型中的任意一个翻译模型的训练方法包括:
对原文进行分词,根据预设的词向量模型获得所述原文的词向量序列;
将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列;
将所述原文的编码向量序列输入至所述解码器,输出预测的译文。
5.根据权利要求4所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述编码器为双向LSTM神经网络结构;
相应地,所述将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列,具体为:
将所述原文的词向量序列根据从左到右的顺序输入至所述编码器,输出第一向量序列;
将所述原文的词向量序列根据从右到左的顺序输入至所述编码器,输出第二向量序列;
将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911350770.8/1.html,转载请声明来源钻瓜专利网。