[发明专利]基于样例指导的神经机器翻译方法在审
申请号: | 201910305131.3 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110046359A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 熊德意;曹骞 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/22;G06F16/33 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 徐洋洋 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于样例指导的神经机器翻译方法。本发明一种基于样例指导的神经机器翻译方法,包括:通过一个与源语句相似的句子的翻译来辅助源语句翻译,在样例数据库中找到与源语句相似的样例语句,把它们记为(x,xm),其中x表示源语句。我们提出将样例引入神经机器翻译模型,以此来指导其翻译的方法,具有以下优势:1.通过噪音掩盖的编码器模型,将样例语句中的无用的噪音信息掩掉,可以有效避免无用信息对源语句翻译的干扰。2.通过辅助解码器模型,可以显示地指导模型样例语句中哪些信息是可以使用的,以充分使用目标端样例语句中的信息。 | ||
搜索关键词: | 语句 机器翻译 神经 语句翻译 编码器模型 辅助解码器 翻译 无用信息 噪音信息 辅助源 目标端 句子 数据库 噪音 掩盖 引入 | ||
【主权项】:
1.一种基于样例指导的神经机器翻译方法,其特征在于,包括:通过一个与源语句相似的句子的翻译来辅助源语句翻译,在样例数据库中找到与源语句相似的样例语句,把它们记为(x,xm),其中x表示源语句,xm表示源端样例语句,对应的翻译记做(y,ym),之后计算x与xm的模糊匹配得分,相关公式如下所示。
其中Levenshtein(x,xm)是计算x与xm之间基于词的编辑距离大小;在上面的步骤执行完之后,就获得了互相匹配的句对(x/y,xm/ym),以及x与xm的模糊匹配得分,在之后的过程中,将x与ym作为模型的输入;下面首先介绍基础的引入目标端样例语句的transformer模型;除了原始的编码器之外,使用一个样例编码器专门用来编码ym,这样分别得到了x与ym的表示,在解码器中,先经过一个masked multihead attention层得到之前翻译的词的信息,之后将ym的表示作为key和value输入到multihead attention中,之后再将x的表示作为key和value输入到multihead attention中,再经过一个前馈网络;基于上面的基础模型,一共提出了两种模型,第一种模型是噪音掩盖的编码器模型(简称为NME模型);在源端检索得到与源语句最相似的源端样例语句,之后获得其对应的翻译目标端样例语句,在这个过程中,可以比对源语句与源端样例语句之间的匹配程度,在源端样例语句中保留那些与源语句匹配的部分,对那些不匹配的部分,引入了一个特殊符号“<X>”,将那些不匹配的部分用“<X>”替换,这样,就可以得到一个替换之后仅保留了匹配片段的源端样例语句,把它们叫做噪音掩盖后的源端样例语句,记为M(xm);得到这个之后,可以通过源端样例语句与目标端样例语句之间的词对齐,将这个匹配的信息传递到目标端样例语句中,将那些对齐到源端样例语句中的“<X>”符号的词也用“<X>”替换,保留其他的词,这样得到的叫做噪音掩盖后的目标端样例语句,称为M(ym);噪音掩盖的编码器模型与基础模型唯一的区别就在于输入的embedding是M(ym)而不是ym;第二种模型是辅助解码器模型(简称为AD模型),在训练时,除了可以看到源语句,还可以看到对应的目标语句,因此,可以通过比较目标语句与目标端样例语句,得出目标语句中哪些部分是目标端样例语句可以提供帮助的,也就是它们匹配的部分,保留这些匹配的部分,对于那些不匹配的部分,用“<X>”去替换,这样可以得到一个新的目标语句,把它们称作掩盖的目标语句;之后额外使用一个解码器,这个解码器是用来预测掩盖的目标语句的,经过masked multi‑head attention之后,将样例编码器的输出作为key和value,经过一个multi‑head attention子层,再经过前馈网络,完成掩盖的目标语句的预测;值得注意的是,在两个decoder中共享参数,而且鉴于仅能在训练的时候获得目标端的对应翻译,所以这个辅助解码器仅仅在训练时使用,在解码时,将这个辅助解码器移除;将两张方法结合在一起,一方面在编码端掩盖了那些噪音,另一方面,也使用辅助解码器来使得充分利用目标端样例语句的信息;除此之外,在上面结合模型的基础之上,继续引入了完整的目标端样例语句;在编码样例语句的信息时,将目标端样例语句作为输入,经过原始的样例编码层,得到一个表示,之后将噪音掩盖后的目标端样例语句作为输入,经过multi‑head attention层得到表示,将噪音掩盖后的目标端样例语句的表示作为query,而将目标端样例语句的表示作为key和value,得到一个表示,再经过一个前馈网络,将这个得到的结果作为样例信息的表示,再加入到后面的步骤中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910305131.3/,转载请声明来源钻瓜专利网。