[发明专利]基于自注意力机制的多领域神经机器翻译方法有效
申请号: | 201910344013.3 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110059323B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 熊德意;张诗奇 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/47;G06N3/045;G06N3/0455;G06N3/0895 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自注意力机制的多领域神经机器翻译方法。基于自注意力机制的多领域神经机器翻译方法,包括:对Transformer进行了两项重要的改变;第一个变化是基于领域感知的自注意力机制,其中领域表示被添加到原始的自注意力机制的键和值向量中;注意力机制的权重是查询和领域感知的键的相关程度。第二个变化是添加一个领域表示学习模块来学习领域向量。本发明的有益效果:本专利在目前代表最先进水平的神经网络架构Transformer上提出领域感知的NMT模型架构。为多领域翻译提出了一种基于领域感知的自注意力机制。据所知,这是在基于自注意力机制的多领域NMT上的首次尝试。同时,实验和分析也验证了的模型能够显著提升各领域的翻译效果并且可以学习到训练数据的领域信息。 | ||
搜索关键词: | 基于 注意力 机制 领域 神经 机器翻译 方法 | ||
【主权项】:
1.一种基于自注意力机制的多领域神经机器翻译方法,其特征在于,包括:对Transformer进行了两项重要的改变;第一个变化是基于领域感知的自注意力机制,其中领域表示被添加到原始的自注意力机制的键和值向量中;注意力机制的权重是查询和领域感知的键的相关程度;基于领域感知的自注意力机制可以用在编码器、解码器或同时用在编码端和解码端的自注意力层;第二个变化是添加一个领域表示学习模块来学习领域向量。假设序列中的每个元素都有一个领域表示;因此,基于领域感知的自注意力机制中的键和值向量是原始向量和领域表示的组合;让与x相同长度的序列z=(z1,...,zn)成为对应于x的领域表示;维度为dz的
是元素xi对应的领域表示;如果不添加额外的线性变换,则x和z的维度可以相同(即,dz=dx);通过强制所有元素具有相同的领域表示,即z1=z2=...=zn,得到句子或文本级别的模型;DSA的输出元素oi可以如公式(3‑1)计算:
直观地,输出将包含来自x的语义信息和来自z的领域信息;希望如果在编码器中使用领域感知的自注意力机制,领域信息可以帮助消除源端单词的歧义,如果它被用在目标端,领域信息能够帮助选择正确的目标词;同样,计算查询和键向量之间的相关度的函数也做了变化,为将领域表示考虑在内,如下所述;
其中,
是要学习的转换矩阵;领域表示学习:句子级领域信号监督的领域表示学习:基于领域感知的自注意力机制的关键是学习领域的表示z;提出了句子级领域信号监督的方法来学习领域的表示;假设有来自训练集和测试集的句子的领域ID,可以使用这些域ID作为信号来监督领域表示的学习;设N是领域类型的数量;随机初始化一组向量表示l={l1,...,lN},其中
是领域i∈{1,...,l}的向量表示;在训练阶段,如果句子的域ID是i,设置z1=...=zn=li;继续训练整个多领域NMT模型,领域向量l={l1,...,lN}将一次又一次地更新,类似于字向量,直到收敛;基于领域注意力网络的单词级别的无监督学习:初始化一组领域向量m={m1,...,mN},其中
N是预定义的领域的数量的超参数;将基于自注意力机制模型中的元素xi的领域表示zi表示为m中N个的领域向量的加权和,而不是将zi指定为m中的某一个领域向量;为了学习领域混合模型的权重,构建了一个领域注意力网络,允许每个元素xi与m中的所有领域表示做注意力计算;混合的领域权重通过相似性函数计算的注意力权重得到,其中查询是来自x的元素,键是领域向量;基于点积函数的相似性计算如下;![]()
利用这些权重,计算领域表示zi的公式如(3‑5)所示;
其中,
是参数矩阵;在领域向量集m上使用基于领域注意力网络的领域表示具有两个好处;首先,除了超参数N之外的所有参数都可以通过端到端的Transformer模型进行调整;因此,可以以无监督的方式学习领域感知的自注意力机制中的领域向量m和领域表示z;其次,通过领域注意力网络,可以将单词聚类到特定的领域中,并用最相关的单词可视化领域;如果没有领域注意力网络,仍然可以通过类似于学习单词向量的方式来学习领域表示zi;但是,在这种情况下,领域的数量与词汇表中的单词数量相同;加入辅助的损失的引导学习:引入辅助损失Δ来衡量领域注意力网络学习的领域表示zi与外部领域模型学习的领域表示
之间的不一致;训练的最终目标是最小化下述损失;
其中λ>0是一个超参数,平衡翻译似然函数和领域表示间的差异对训练的影响;由于辅助的损失仅在训练阶段使用,因此在测试阶段不需要外部领域信号的引导;使用分布向量空间模型作为外部模型,并定义Δ为两个领域表示的交叉熵;将单词的领域向量的每个维度定义为由tf‑idf测量的单词对特定领域的重要程度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910344013.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种英语翻译器
- 下一篇:基于依存信息监督的神经网络机器翻译方法及装置