[发明专利]基于降噪原型序列的汉越神经机器翻译方法在审
申请号: | 202210787747.0 | 申请日: | 2022-07-06 |
公开(公告)号: | CN115034239A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 赖华;杨汉清;余正涛;于志强;相艳 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06F40/295;G06F40/30 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 原型 序列 神经 机器翻译 方法 | ||
本发明涉及基于降噪原型序列的汉越神经机器翻译方法,属自然语言处理领域。本发明包括:将汉语和越南语的句子语映射到向量空间,利用跨语言相似性检索出目标端原型序列;接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖;之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配;最后将处理好的原型序列作为模板信息,应用在双编码器‑单解码器结构,指导翻译任务。针对汉越数据集的实验结果表明,与当前最优模型相比,本发明在利用越南语单语数据缓解双语资源匮乏的同时,将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强,有效提升了汉越机器翻译的性能。
本发明涉及基于降噪原型序列的汉越神经机器翻译方法,属自然语言处理领域。
背景技术
原型序列(prototype)旨在用目标端语言信息指导机器翻译,已有的工作主要是在资源丰富场景下,利用相似性翻译作为目标端原型序列,提升神经机器翻译的性能。
在缺乏汉语到越南语平行语料的情况下,利用源端相似性检索的方法得不到有价值的原型序列。利用跨语言相似性检索是一种有效的方式,然而原型序列由多个句子组成,每个句子中可能包含不同的实体、数字以及稀有词。一方面,基于相似性检索的原型序列中所含的实体、数字多数情况下和源句子中的实体、数字无法对应,这将会在翻译模型的训练过程中引入噪声。另一方面,相似性较低的原型序列会包含稀有词,翻译模型学习这部分原型序列时需要耗费更多时间以及运算成本,此外,稀有词的词嵌入在模型计算损失时也会带来一定误差,这部分的原型序列对模型来说指导作用是偏弱的。此外,越南语是一种拼音文字,书写时以音节作为最小粒度。在传统汉越神经机器翻译中,往往会使用切分后的子词粒度进行模型训练,这虽然可以提升模型的翻译表现,但却给一些需要进行词级粒度处理的工作带来不便。
为了在神经机器翻译中有效利用目标端的语言信息,本发明首先将汉语和越南语的句子语映射到向量空间,利用跨语言相似性检索出目标端原型序列;接着对子词级原型序列进行粒度还原,再依据构建好的实体词典做噪声掩盖;之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配,加大原型序列之间的特征差异,赋予其更合理的参考价值判别标准;最后将处理好的原型序列作为模板信息,应用在双编码器-单解码器结构,指导翻译任务,从而进一步提高神经机器翻译的效果。
发明内容
本发明提供了一种基于降噪原型序列的汉越神经机器翻译方法,该方法在利用越南语单语数据缓解双语资源匮乏的同时,将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强,提升了汉越神经机器翻译模型的翻译性能。
本发明的技术方案是:基于降噪原型序列的汉越神经机器翻译方法,所述方法的具体步骤如下:
Step1、将汉语-越南语平行语料、越南语候选句子库进行分词处理,并利用Underthesea-Vietnam NLP工具构建越南语单语词典;
Step2、将词粒度的汉语句子、子词粒度越南语候选句子通过两个编码器映射到向量空间,利用跨语言相似性检索出子词粒度的目标端原型序列,并在音节粒度的候选句子库中对照出音节粒度的目标端原型序列;
Step3、对子词级原型序列进行粒度还原,再依据构建好的实体词典做噪声掩盖,之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配,赋予原型序列参考价值;
Step4、将处理好的原型序列作为模板信息,应用在双编码器-单解码器结构,指导翻译任务。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、利用Jieba分词工具对汉语语料进行分词,得到词粒度的汉语句子x,构建汉语词语表;
Step1.2、利用subword-nmt工具对越南语、候选句子库进行分词,得到子词粒度的越南语句子s以及音节粒度的越南语句子,构建越南语词语表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210787747.0/2.html,转载请声明来源钻瓜专利网。