[发明专利]基于自注意力机制的多领域神经机器翻译方法有效
申请号: | 201910344013.3 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110059323B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 熊德意;张诗奇 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/47;G06N3/045;G06N3/0455;G06N3/0895 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 领域 神经 机器翻译 方法 | ||
本发明公开了一种基于自注意力机制的多领域神经机器翻译方法。基于自注意力机制的多领域神经机器翻译方法,包括:对Transformer进行了两项重要的改变;第一个变化是基于领域感知的自注意力机制,其中领域表示被添加到原始的自注意力机制的键和值向量中;注意力机制的权重是查询和领域感知的键的相关程度。第二个变化是添加一个领域表示学习模块来学习领域向量。本发明的有益效果:本专利在目前代表最先进水平的神经网络架构Transformer上提出领域感知的NMT模型架构。为多领域翻译提出了一种基于领域感知的自注意力机制。据所知,这是在基于自注意力机制的多领域NMT上的首次尝试。同时,实验和分析也验证了的模型能够显著提升各领域的翻译效果并且可以学习到训练数据的领域信息。
技术领域
本发明涉及神经机器翻译领域,具体涉及一种基于自注意力机制的多领域神经机器翻译方法。
背景技术
随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的应用。基于深度学习的神经机器翻译(Neural Machine Translation)越来越受到人们的关注。在NMT领域中,目前代表最先进水平的神经网络架构Transformer是一个完全基于注意力机制(attention-based)的编码器-解码器(encoder-decoder)模型。其主要思想是将待翻译的语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为‘目标语句’)。
从人工和自动评测指标来看,神经机器翻译在翻译质量上已经取得了显著进步,尤其是在新闻领域。这种成功得益于先进的神经架构和大规模可得到的领域内训练数据。然而,神经机器翻译在领域适应方面仍然面临着挑战。
将机器翻译(MT)更普遍地应用到工业翻译中面临着两个相互关联的问题。一方面,MT技术应该能够保证高水平的灵活性,能够在广泛的使用场景(语言组合,流派,领域)中提供高质量的输出。另一方面,实现这一目标所需的基础设施应具有足够的可扩展性,以便以合理的成本实现MT的工业部署。
第一个问题是MT领域适应中众所周知的问题:翻译性能受到训练和测试数据之间匹配性的限制。本专利讨论的场景的输入数据来自各种不同的领域,在通用平行语料库上训练的模型受到数据多样性的影响。实际上,当训练实例的距离增加时,处理来自不同领域的句子变得越来越困难。翻译系统处理的领域越多,翻译质量下降的机率就越高。为了解决这个问题,MT系统应该足够灵活,以适应不同数据之间的各种语言差异(例如词汇,结构)。
第二个问题更切合实际:在模型缺乏灵活性的情况下,多领域的翻译场景需要多个特定领域的系统架构,每次涉及一个新的领域时,必须使用特定领域的数据再训练一个专用模型,缺乏架构的可扩展性和造成较高的维护成本。
传统的多领域翻译方法是1)首先训练通用模型,然后在特定领域上微调以最大化其在特定领域上的性能。Luong和Manning在论文Effective Approaches to Attention-based Neural Machine Translation中提出微调的方法,在已经训练好的领域外翻译系统上用领域内的语料继续训练。
2)对不同的领域训练多个模型进行模型融合。Sajjad等人在论文Neural machinetranslation training in a multi-domain scenario中探索了模型叠加和多领域的多模型融合方法。
传统技术存在以下技术问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910344013.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种英语翻译器
- 下一篇:基于依存信息监督的神经网络机器翻译方法及装置