[发明专利]基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法在审
申请号: | 202011393647.7 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112417901A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 苏依拉;王涵;张妍彤;仁庆道尔吉;石宝 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 环顾 解码 词汇 注意力 回归 机器翻译 方法 | ||
本发明提出了一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,通过使用环顾生成,减少重复生成的可能;通过使用词汇注意力,在运行解码器的每一层,让每个位置都关注整个词表,得到可能生成的字符,通过词汇注意力,解码器可以使得各个位置预期产生的字符进行交互,从而降低重复生成的可能,同时不需要引入额外的参数;本发明通过使用对齐交叉熵作为非自回归翻译模型的损失函数,解决了非自回归翻译模型中由于缺少自回归因子,难以对蒙语词序建模的问题;在解码时,采用动态双向解码,从而得到句子级别的更好的采样结果。本发明在蒙汉翻译的过程中加快解码速度的同时,也提升了翻译质量。
技术领域
本发明属于机器翻译技术领域,特别涉及一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法。
背景技术
机器翻译作为人工智能的根本组成之一,为解决语言翻译问题提供了方法,机器翻译是利用计算机实现两种自然语言间快速转换的过程,机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随,从1949年翻译备忘录提出到现在,这期间,机器翻译经历了多个不同的发展阶段,也涌现出了很多方法。总结起来主要有三类,一开始是基于规则的方法,然后发展为基于统计的方法。一直到最近的基于神经网络的方法。
基于规则的机器翻译技术本质上将专家的翻译知识采用规则形式写下来,采用软件的方式利用翻译规则来实现机器翻译过程。这种方法的优点是直接用语言学专家知识,准确率非常高。但因为其涉及到人工参与构建高质量知识库,导致系统构建代价高,灵活性比较差。此外,还面临规则冲突的问题。随着规则数量的增多,规则之间互相制约和影响。而为了解决这一系列问题,不得不引入更多的规则,形成恶性循环。针对新语言现象处理的能力弱,如果没有匹配上合适的翻译规则,可能会导致无法翻译,所谓鲁棒性不够强大。
基于统计机器翻译最大的变化在于从人工书写翻译规则的方式,转换到数据驱动的机器学习方法。统计机器翻译方法的基本过程是,首先准备一定规模的双语句对,采用机器学习的方法,从该双语训练句对中自动训练学习翻译模型,同时采用大规模目标语单语数据自动训练学习语言模型,最后通过参数调优,可以构建一套完整的统计机器翻译系统。其最大的优点在于:任何句子都能够给出译文,但可能译文质量不好,这一点传统规则方法无法比拟,因为之前如果没有匹配成功合适的翻译规则,会导致翻译失败,无法生成译文。基于统计机器翻译对于词汇译文选择和短语译文选择的能力很强,但对译文语序的调序能力不够,特别是涉及到译文中需要远距离调序,这就导致统计机器翻译的译文不通顺,同时还会引入漏译问题。
基于神经网络的机器翻译的通用框架为编码器-解码器结构。基于神经网络的机器翻译以其独特的优势迅速成为主流的翻译方法,翻译技术取得了巨大突破,相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它主要包含两个部分,一个是编码器,一个是解码器。编码器是把源语言经过一系列的神经网络的变换之后,表示成一个高维的向量;解码器负责把这个高维向量再重新解码(翻译)成目标语言。基于神经网络的机器翻译有不同的网络结构,如循环神经网络(Recurrent Neural Networks,RNN)、卷积神经网络(Convolutional Neural Network,CNN)和Transformer,虽然翻译性能有了一定提升,但是由于使用自回归(Autoregressive Translation,AT)进行解码,导致了翻译速度慢和并行性低的问题。
为了解决自回归存在的问题,有很多非自回归模型,比如DisCo,可以显著减少推理时间的非自回归机器翻译模型,以及基于插入和删除的序列生成方法,然而,尽管有或多或少的效率上的优势,但这些方法所展现出来的结果都没能超过自回归生成。
除了以上问题,蒙语使用后加成分为词的派生和词型变化,粘合多个附加成分以表示多重语法意义;蒙语名词和代词有数、格等语法范畴,动词有态、时、式等语法范畴;蒙语动词在宾主之后,定语在被修饰词之前,蒙语的特点也给蒙汉翻译带来了极大的挑战。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011393647.7/2.html,转载请声明来源钻瓜专利网。