[发明专利]一种领域适应医学文献神经机器翻译模型的训练方法有效
申请号: | 202110332815.X | 申请日: | 2021-03-29 |
公开(公告)号: | CN112989848B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 董守斌;张绍源;胡金龙;袁华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/56;G06F40/289;G06F16/35 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 适应 医学 文献 神经 机器翻译 模型 训练 方法 | ||
本发明公开了一种领域适应医学文献神经机器翻译模型的训练方法,包括:1)对域内外数据集进行数据预处理;2)基于域外子词化训练集进行域外子词化神经机器翻译模型进行动态递减训练集训练;3)使用改进的数据选择法,从域外数据集中挑选出与域内平行数据集相似的数据集来增强域内数据集;4)基于高质量的人工纠错的子词化医学数据集,训练小型的分类器或语言模型,获得域内子词化训练集句子对的训练权重,将权重作为训练参数加入到继续训练过程中;5)结合上一步骤处理得到的域内子词化训练集和训练权重文件,基于已训练域外子词化神经机器翻译模型,在域内子词化训练集上继续训练。本发明可节省总体训练时间,提高最终翻译训练效果。
技术领域
本发明涉及中英神经机器翻译的技术领域,尤其是指一种领域适应医学文献神经机器翻译模型的训练方法。
背景技术
神经机器翻译因其端到端的简单模型,近些年来逐渐成为主流的机器翻译方法,一些技术领先的神经机器翻译框架不断被提出,不断刷新了机器翻译成绩。然而,高质量的神经机器翻译模型很大程度上依赖于大规模高质量的双语平行训练集,而大规模双语数据集只存在于很少几对的双语语言中,如英语和几个欧洲国家的语言对,中英语言对等;而且每一种语言对在特定领域的数据集规模也很小,如生物医学,法律领域,意味着只有规模很小的训练集用来训练神经机器翻译模型,因此训练出来的模型效果都不甚理想。领域适应技术,就是利用较大规模域外平行数据集和小规模域内平行或单语数据集来解决或缓解特定语言对或特定领域数据集不足的问题。
目前,领域适应的研究从数据增强、训练方式来看,有数据选择法,预训练加微调方法,动态训练方法,混合训练法等。虽然训练方法众多,但训练过程中几个关键因素的选择会对最终训练效果产生很大的影响,如数据选择的方法,子词合并模型操作数大小及学习,应用方式,领域适应的训练方式等,但参数搜索的代价昂贵,本方法通过具体研究和优化域内和域外数据集预处理方式、预训练加微调过程,采用更快速有效的方法来增强域内数据集,这些过程都可以通过不修改神经机器翻译框架来实现,可以进一步提高最终领域适应的效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种领域适应医学文献神经机器翻译模型的训练方法,对常规预训练加微调方式进行了改进,同时,对传统的n-gram语言模型进行数据选择的方法进行了改进,最终进一步提高了领域适应的效果。
为实现上述目的,本发明所提供的技术方案为:一种领域适应医学文献神经机器翻译模型的训练方法,包括以下步骤:
1)对域内和域外平行数据集进行数据预处理,包括:对域内平行数据集的中文部分使用两种以上的分词工具进行分词;对影响最终翻译效果的子词合并操作次数进行参数搜索;只基于域内平行数据集学习域内子词合并模型,并应用到域内和域外平行数据集中,生成域内和域外子词化训练集;从域内和域外子词化训练集中提取域内和域外子词词汇表作为下一步域外预训练模型和域内微调模型训练的翻译词汇表;其中,所述域内平行数据集为生物医学平行数据集,所述域外平行数据集为与生物医学不同领域的平行数据集;
2)基于域外子词化训练集进行域外子词化神经机器翻译模型的训练:使用基于fasttext分类算法或bert预训练模型对基于n-gram语言模型的数据选择法进行改进,具体改进是取代用n-gram语言模型计算句子困惑度方法,替换成训练fasttext或bert领域分类器,训练好fasttext或bert领域分类器后,对域外子词化训练集进行打分和排序,生成域外排序子词化训练集,再对域外排序子词化训练集进行域外预训练模型的训练,训练过程中采用改进的逐步微调方法,该方法是每隔k个epoch训练前设定训练集为域外排序子词化训练集的前百分之N,当训练集数量递减到大于域内子词化训练集的预设数量时,不再递减,继续训练至收敛;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110332815.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种暗弱海面图片纹理清晰度提升方法
- 下一篇:一种耐高温陶瓷练泥机