[发明专利]一种译文重对齐的循环神经网络跨语言机器翻译方法在审
申请号: | 201910976757.7 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110717345A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 苏依拉;范婷婷;仁庆道尔吉 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04 |
代理公司: | 61215 西安智大知识产权代理事务所 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 循环神经网络 编码器 目标语言文本 机器翻译 解码器 解码器架构 上下文向量 上下文语境 方法生成 人工翻译 网络生成 原文语义 翻译 可变 建模 向量 译文 注意力 配合 语言 | ||
1.一种译文重对齐的循环神经网络跨语言机器翻译方法,采用基于局部注意力机制的编码器-解码器架构,在所述架构上添加一个额外的使用局部注意力机制的序列引导网络,编码器对源语言语句进行编码,表示为一个长度固定的上下文向量,解码器依据上下文向量以及序列引导网络给出的序列引导向量,给出目标语言语句,其中所述编码器由一个基于局部注意力机制的循环神经网络(Recurrent neural networks,RNN)组成,所述循环神经网络包含隐藏层h和输出层,隐藏层h将输入的源语言序列编码为隐藏状态,每一j时刻源侧隐藏层特征hj的计算公式为:
hj=σ(W(hh)hj-1+W(hx)xj)
其中,xj是j时刻的输入单词向量,为序列x中的一个向量,x={x1,……,xj-1,xj,xj+1,……,xT},是T容量的输入源语言序列;W(hx)是输入xj的权重矩阵;W(hh)是前一时刻隐藏层输出hj-1的权重矩阵;hj-1是j-1时刻非线性激活函数的输出;σ是非线性激活函数;
即,每一j时刻源侧隐藏层的输出特征hj都是基于前一时刻隐藏层的输出特征hj-1及当前输入的单词向量xj的;
所述序列引导网络是一个LSTM,在每个时间步t,基于先前引导向量gt-1和当前引导输入信号zt,生成当前引导向量gt:
gt=f(zt;gt-1)
每一时刻的引导输入信号zt由先前注意力向量和属性特征A结合计算而成;
最终依据当前引导向量gt生成解码输入dt:
dt=Wctct+Wgtgt
Wzt,Wct,Wgt均是权重矩阵,f是解码器LSTM单元内的递归函数;
其特征在于,所述解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
其中,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht;
解码器通过以下方程进行计算:
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
其中,σ是激活函数,xt是t时刻的输入,mt和ht分别是t时刻记忆单元和隐藏状态,it、ft、ot、c′t分别是t时刻输入门,遗忘门,输出门,候选记忆单元,和bz分别是参数矩阵和偏差;
注意力向量输入到softmax层,输出预测分布,其计算公式为:
其中,是目标语言单词,W(S)是权重。
2.根据权利要求1所述译文重对齐的循环神经网络跨语言机器翻译方法,其特征在于,所述非线性激活函数使用sigmoid函数。
3.根据权利要求1所述译文重对齐的循环神经网络跨语言机器翻译方法,其特征在于,所述序列引导网络设置在解码器端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910976757.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于智能可穿戴设备的辅助交流系统
- 下一篇:一种扫码准确度高的除湿型扫码系统