[发明专利]一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法在审
申请号: | 202111113538.X | 申请日: | 2021-09-23 |
公开(公告)号: | CN113887249A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 仁庆道尔吉;程坤;庞蕊;刘馨远;麻泽蕊;尹玉娟;吉亚图;苏依拉 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 李慧奇 |
地址: | 010051 内蒙古*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 句法 信息 transformer 模型 神经 机器翻译 方法 | ||
1.一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,其特征在于,其特征在于:首先,使用Stanford CoreNLP对蒙汉平行语料中的汉语语料进行依存句法分析,并将得到的汉语依存句法树用邻接矩阵存储;其次,改进Transformer模型:一是使Transformer模型由单输出变成双输出,一路用于预测汉语目标语句,一路用于学习汉语句法知识,二是在Transformer模型的编码器上加入用于学习蒙语语法的矩阵;然后,对模型进行训练,既融合了汉语依存句法知识,又用汉语依存句法知识使模型学习蒙语的语法,以此来提高蒙汉机器翻译的质量。
2.根据权利要求1所述一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,其特征在于,所述提取汉语依存句法邻接矩阵的流程如下:
步骤1:将蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;
步骤2:利用Stanford CoreNLP对蒙汉平行语料训练集里的汉语语料进行依存句法分析,得到汉语依存句法树;
步骤3:将步骤1得到的汉语依存句法树转换为邻接矩阵存储,并将该邻接矩阵沿主对角线对称化,称为汉语依存句法邻接矩阵。
3.根据权利要求1所述一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,其特征在于,所述改进Transformer模型,增加一路输出和在编码器上加入用于学习蒙语语法的矩阵的流程为:
步骤1:将Transformer模型修改为双输出,在最后一个解码器后新增一个单向LSTM循环单元;
步骤2:将单向LSTM循环单元的输出矩阵与汉语依存句法邻接矩阵按元素相减得到损失值L2,L2与Transformer模型原始输出的交叉熵损失值L1相加为模型的总损失值;
步骤3:在Transformer模型的编码器中设置用于学习蒙语语法的矩阵。
4.根据权利要求3所述一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,其特征在于,所述步骤1中,LSTM循环单元:
新增的循环层:Transformer模型解码器的输出矩阵尺寸为[batch_size×seq_len×d_model],其中batch_size为每批训练样本的数目,seq_len为训练句子长度,d_model为词向量嵌入维度,在解码器的输出后新增单向LSTM循环单元,单向LSTM单元的超参数设置有:input_size为输入特征的维度即词向量的维度数值等于d_model,hidden_size为隐藏层神经元个数,数值等于seq_len,num_layers定义网络的层数,nonlinearity定义激活函数,bias定义是否使用偏置,batch_first定义是否将batch_first参数作为输出矩阵的第一个维度,dropout定义随机失效某些神经元的几率,birdirectional定义是否使用双向的LSTM,LSTM的输入为解码器的输出,输出矩阵的尺寸为[batch_size×seq_len×seq_len]。
5.根据权利要求3所述一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,其特征在于,所述步骤2中,将该矩阵与对应的依存句法邻接矩阵按元素相减得到损失值L2与另一路损失之和作为改进的Transformer模型的总损失。
6.根据权利要求3所述一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,其特征在于,所述步骤3中的编码器添加了用于学习蒙语语法的矩阵:
Transformer编码器中用到了自注意力机制,自注意力公式为:
其中Q、K、V均是矩阵且各维度相同,在翻译中,类比为现有一个需要被表达的目标语言Q的分布,K表示源语言句法结构等信息,V是源语言的分布,先使用Q与K的点积计算出相关度,然后再用计算出的相关度与V相乘得到源语言与目标语言之间的对应关系,为了加强模型对源语法信息的学习,将原式改为:
M矩阵用于蒙语语法的学习,在经过汉语依存句法信息的指导后,蒙语句法信息矩阵会在蒙语分词之间形成不同的权值,会加强分词之间的联系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111113538.X/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置