[发明专利]基于枢轴的汉越联合训练神经机器翻译方法有效
申请号: | 202011020199.6 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112257460B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 高盛祥;张磊;余正涛;王振晗;朱俊国;刘畅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/295;G06F40/284;G06F40/205;G06F16/951 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 枢轴 联合 训练 神经 机器翻译 方法 | ||
1.基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征;其次以英语作为枢轴语言对汉语-英语,英语-越南语翻译模型进行联合训练,再将汉语-英语、英语-越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练;
所述方法的具体步骤如下:
Step1、获取汉、英、越单语语料,再经过过滤、去噪音、去除停用词、命名实体识别和标注、分词预处理后,分别构建汉英平行语料、英越平行语料和汉越平行语料;
Step2、基于枢轴的神经机器翻译,融入注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在解码生成目标语言;利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型;
Step3、基于枢轴的汉越联合训练神经机器翻译,采取联合训练的方法,使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能;
所述步骤Step3的具体步骤为:
Step3.1、使用汉英,英越平行语料来对汉越进行联合训练:与表示的是汉语-英语,英语-越南语的似然函数,汉越神经机器翻译联合训练表示为:
Step3.2、在联合训练中,存在级联翻译错误,为了降低枢轴语言带来的传播误差,所以词在语义空间中词的表示要一样,通过轴词嵌入即英语的词嵌入来连接汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,鼓励这两个模型在两个词汇表的交集中为枢轴词生成相同的向量表示;
Step3.3、使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能;
所述步骤Step3.2的具体步骤为:
Step3.2.1、定义vwzx→z是汉语-英语的词表中的英语,vwzz→y是英语-越南语的词表中的英语,用w∈(vwzx→z∩vwzz→y)表示w是汉语-英语,英语-越南语词表中共有英语的词;
Step3.2.1、为减小源到枢轴模型和枢轴到目标模型之间的差异,在训练模型的似然函数中加入一个连接项R,λ是超参数,并同时通过惩罚欧氏距离来约束汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,则基于枢轴联合训练的注意力机制神经机器翻译模型表示为:
2.根据权利要求1所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出文本级语料,并以json格式储存到数据库中;
Step1.2、对各单语语料进行去除停用词、命名实体识别和标注、分词、词干提取和词形还原的数据处理;
Step1.3、构建英越平行语料规模70万句对、汉英语料规模1000万句对、汉越平行语料。
3.根据权利要求2所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step1.3中:
在训练模型之前对汉越语料进行分词处理,其中汉语分词采用结巴分词,越南语分词采用Underthesea-Vietnamese NLP工具,构建汉越平行语料规模10万句对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011020199.6/1.html,转载请声明来源钻瓜专利网。