[发明专利]基于迭代式双向迁移的神经网络机器翻译模型有效
申请号: | 201910933203.9 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110674648B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 苏劲松;曾嘉莉;罗斌;尹永竞;王安特;辛春蕾 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 迭代式 双向 迁移 神经网络 机器翻译 模型 | ||
1.基于迭代式双向迁移的神经网络机器翻译模型的方法,其特征在于包括以下步骤:
1)利用源领域的训练语料训练得到一个面向源领域的翻译任务的神经网络机器翻译模型,即源领域机器翻译模型,并利用目标领域的训练语料训练得到一个面向目标领域的翻译任务的神经网络机器翻译模型,即目标领域机器翻译模型,并以此作为最初的两个领域的最优模型;
2)利用源领域的双语语料训练集训练当前的目标领域机器翻译模型,在最优的源领域机器翻译模型的指导下,利用知识蒸馏的方法,从目标领域迁移得到新的源领域机器翻译模型,具体方法如下:
进行一对一迭代迁移:
初始化模型后,迭代模型从目标领域到源领域、从源领域到目标领域的迁移过程,直到达到最大迭代次数K;
以第k次迭代为例,利用源领域的双语语料训练集训练当前的目标领域机器翻译模型,从目标领域迁移得到新的源领域机器翻译模型,过程如下:
此时,若新模型优于源领域最优模型,则更新源领域最优参数
3)利用目标领域的双语语料训练集训练步骤2)中得到的源领域机器翻译模型,在最优的目标领域机器翻译模型的指导下,利用知识蒸馏的方法,从源领域迁移得到新的目标领域机器翻译模型,具体方法如下:
从源领域到目标领域的迁移的第k次迭代过程如下:
若新模型优于目标领域最优模型,则更新目标领域最优参数
对于目标函数的设计,在考虑翻译正确性的同时,引入知识蒸馏的思想,用最优模型指导模型收敛,利用KL散度衡量模型与当前步骤最优模型预测结果的差异,从而优化模型结果:
4)利用源领域的开发集验证步骤2)中得到的源领域机器翻译模型,若性能有所提升,则将其作为源领域的最优模型用于后续迁移过程的训练指导;利用目标领域的开发集验证步骤3)中得到的目标领域机器翻译模型,若性能有所提升,则将其作为目标领域的最优模型用于后续迁移过程的训练指导;
5)重复步骤2)~4)直到迭代次数达到预设最大迭代次数K;
6)当推广到多对一的领域迁移情境下,步骤2)~4)中涉及到迁移顺序问题,按照领域相关程度,由低到高逐个与目标领域进行双向迁移。
2.如权利要求1所述基于迭代式双向迁移的神经网络机器翻译模型的方法,其特征在于在步骤6)中,当推广到多对一的领域迁移情境下,考虑到多领域迁移时领域之间的相关性,将源领域依次迁移到目标领域,通过有效衡量源领域与目标领域之间的相关性,按照相关性由低到高的顺序逐个进行领域迁移,从而权衡目标领域受其他领域的影响程度,得到最优模型;
领域相关度衡量方法为:
其中,∈代表线性词袋SVM分类器的生成误差;根据值大小,即源领域训练语料库到目标领域语料库的距离大小,由小到大排序得到作为迁移顺序,依次在目标领域模型和源领域模型之间执行双向知识迁移,共迭代K次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910933203.9/1.html,转载请声明来源钻瓜专利网。