[发明专利]基于样例指导的神经机器翻译方法在审
申请号: | 201910305131.3 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110046359A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 熊德意;曹骞 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/22;G06F16/33 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 徐洋洋 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 机器翻译 神经 语句翻译 编码器模型 辅助解码器 翻译 无用信息 噪音信息 辅助源 目标端 句子 数据库 噪音 掩盖 引入 | ||
本发明公开了一种基于样例指导的神经机器翻译方法。本发明一种基于样例指导的神经机器翻译方法,包括:通过一个与源语句相似的句子的翻译来辅助源语句翻译,在样例数据库中找到与源语句相似的样例语句,把它们记为(x,xm),其中x表示源语句。我们提出将样例引入神经机器翻译模型,以此来指导其翻译的方法,具有以下优势:1.通过噪音掩盖的编码器模型,将样例语句中的无用的噪音信息掩掉,可以有效避免无用信息对源语句翻译的干扰。2.通过辅助解码器模型,可以显示地指导模型样例语句中哪些信息是可以使用的,以充分使用目标端样例语句中的信息。
技术领域
本发明涉及神经领域,具体涉及一种基于样例指导的神经机器翻译方法。
背景技术
随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的应用。基于深度学习的Neural Machine Translation(NMT)越来越受到人们的关注。在NMT领域中,最常用的一种翻译模型是带有注意力机制(attention-based)的编码器-解码器模型。其主要思想是将待翻译的语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为‘目标语句’)。
在某些特殊的应用场景下,在翻译源语句之前,可以通过检索获得一个与源语句相似的语句(在下文中统称为“源端样例语句”)以及其对应的翻译(在下文中统称为“目标端样例语句”),此时目标端样例语句可以在一定程度上去指导的翻译过程,这个程度取决于源语句与源端样例语句的相似程度,而且也能在一定程度上保持翻译的一致性。这与之前基于例子的翻译模型还有结合翻译记忆与统计机器翻译的模型存在一定的相似,但是神经机器翻译模型与之前的机器翻译模型都有较大的不同,这表明通过目标端样例语句去指导神经机器翻译并不是一个容易完成的任务。
(1)Convergence of Translation Memory and Statistical MachineTranslation。文章从翻译记忆库(一个预先存储翻译句对的数据库)中找到相同的片段,通过词对齐找到对应的翻译并取出,在之后统计机器翻译的翻译过程中,强制系统仅翻译那些不匹配的部分,匹配的部分则用翻译记忆库中取出的翻译替代。
(2)Search Engine Guided Non-Parametric Neural Machine Translation。文章通过搜索引擎在翻译记忆库中检索相同的句对或片段对,将这些句对强制解码得到中间的隐层状态,并将这些隐层状态以键值对的形式保存,并在后面的翻译过程中使用。
(3)Encoding Gated Translation Memory into Neural Machine Translation。文章通过检索源端样例语句,获得相目标端样例语句,之后通过门控机制将目标端样例语句作为一个额外的信号输入到翻译的过程中去,门控机制在其中控制信息流动的多与少,让目标端样例语句能够帮助翻译但又不会占据翻译的主导地位。
传统技术存在以下技术问题:
统计机器翻译与翻译记忆结合的方法涉及翻译时的干预,而NMT是一个序列到序列的结构,目前干预在NMT中还是一个没有完全得到解决的问题,因此统计机器翻译中的方法并不适用NMT。
而之前的NMT与翻译记忆结合的工作在检索翻译记忆库时,只能匹配相似的句子,然后利用这个整体或者是部分匹配的内容去指导翻译,但如果使用整体信息的话,由于句子其他部分与源语句并不匹配,这不可避免会引入噪音,而如果仅仅使用部分匹配的内容,那么会导致无法充分的使用翻译记忆的信息。基于此,提出了基于样例指导的神经机器翻译模型,一方面它可以避免噪音对翻译的影响,另一方面他也可以充分的使用目标端样例语句的信息。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910305131.3/2.html,转载请声明来源钻瓜专利网。