[发明专利]一种基于迁移学习策略的蒙汉神经机器翻译方法在审
申请号: | 201810428618.6 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108829684A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 苏依拉;赵亚平;牛向华 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 学习策略 迁移 译文 神经 平行 语料 翻译模型参数 统计机器翻译 双语语料库 控制变量 流利度 蒙古语 求解 权重 翻译 语言 | ||
1.一种基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,首先,利用大规模的英汉平行语料进行英汉神经机器翻译模型训练;其次,将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中;然后,利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练,得到基于迁移学习策略的蒙汉神经机器翻译模型;最后,利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。
2.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,在进行模型训练前,对英汉平行语料和蒙汉平行语料库资源进行数据预处理。
3.根据权利要求2所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述数据预处理以斯坦福大学自然语言实验室开源软件为工具,包括:
1)利用分词工具stanford-segmenter对中文语料进行分词操作;
2)利用英文预处理工具stanford-ner对英文语料进行预处理操作英语语料进行预处理操作以及汉语语料分词处理;
所述预处理基于条件随机场(CRF)模型,CRF模型定义为G=(V,E),是一个无向图,V是节点集合,是随机变量Y的集合,Y={Yi|1≤i≤m},E为无向边集合,对于输入一个句子的m个需要标记单元,E={Yi-1,Yi|1≤i≤m},是m-1个边构成的线性链;
给定一个需要标记的序列a,其对应的标记序列b的条件概率公式为:
其中,ii是序列的下标,Z(a)为归一化函数,λk和λιk是模型的参数,k的含义是每条边和相应结点的特征数量,fk和fιk是一个二值特征函数。
4.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述神经机器翻译模型公式为:
其中,是模型的参数,是非线性函数,yn是当前目标语言词,x是源语言句子,y<n是已经生成的目标语言句子,Vy是目标语言词向量,D是目标语言词汇表,Cs是源语言上下文向量,Ct目标语言上下文向量。
5.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述神经机器翻译模型的网络类型是RNN循环神经网络,RNN循环神经网络前向传播算法中,对于任意一个序列索引号t,隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到:
h(t)=σ(Ux(t)+Wh(t-1)+b)
其中,σ为循环神经网络的激活函数,一般为tanh,b为线性关系的偏置,序列索引号t模型的输出o(t)的表示为o(t)=Vh(t)+d,最终在序列索引号t时预测输出为d为输出结点的偏置,U,V,W是循环神经网络中共享的参数矩阵。
6.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述模型训练中,编码器和解码器进行联合训练,模型公式为:
其中,θ是模型的参数,p是条件概率函数,(xn,yn)表示双语训练语料,N是训练样本数量,采用极大似然估计算法训练样本。
7.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法,其特征在于,所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,利用训练学到的网络参数权重,对蒙汉神经网络进行参数初始化代替随机初始化,实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810428618.6/1.html,转载请声明来源钻瓜专利网。