[发明专利]利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法在审
申请号: | 201910807617.7 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110598221A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 苏依拉;孙晓骞;王宇飞;赵亚平;张振;高芬;贺玉玺;王昊 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 61215 西安智大知识产权代理事务所 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,生成对抗网络包括生成器和鉴别器,生成器使用混合编码器将源语言句子蒙古语编码为向量表示,使用基于双向Transformer的解码器结合稀疏注意力机制将该表示转化成为目标语言句子汉语,从而生成更加接近人类翻译的蒙古语句子和更多的蒙汉平行语料,在鉴别器中,判断生成器生成的汉语句子与人类译文的差距,将生成器和鉴别器进行对抗训练,直到鉴别器认为生成器生成的汉语句子与人类译文非常相似时,得到高质量的蒙汉机器翻译系统和大量的蒙汉平行数据集,利用该蒙汉机器翻译系统进行蒙汉翻译。本发明解决了针对蒙汉平行数据集严重匮乏以及NMT不能保证翻译结果的自然性、充分性和准确性等问题。 | ||
搜索关键词: | 生成器 鉴别器 机器翻译系统 平行数据 汉语 语料 译文 句子 平行 目标语言句子 解码器 混合编码器 源语言句子 注意力机制 对抗训练 翻译结果 人类翻译 网络包括 网络构造 向量表示 翻译 对抗 充分性 蒙古语 自然性 稀疏 语句 转化 保证 | ||
【主权项】:
1.一种利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法,其特征在于,所述生成对抗网络主要包括生成器和鉴别器,在所述生成器中,使用混合编码器将源语言句子蒙古语编码为向量表示,使用基于双向Transformer的解码器结合稀疏注意力机制将该向量表示转化成为目标语言句子汉语,从而生成更加接近人类翻译的蒙古语句子和更多的蒙汉平行语料,在所述鉴别器中,判断生成器生成的汉语句子与人类译文的差距,将生成器和鉴别器进行对抗训练,直到鉴别器认为生成器生成的汉语句子与人类译文非常相似时,即生成器和鉴别器实现纳什均衡时,得到高质量的蒙汉机器翻译系统和大量的蒙汉平行数据集,利用该蒙汉机器翻译系统进行蒙汉翻译。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910807617.7/,转载请声明来源钻瓜专利网。