[发明专利]一种领域适应医学文献神经机器翻译模型的训练方法有效
申请号: | 202110332815.X | 申请日: | 2021-03-29 |
公开(公告)号: | CN112989848B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 董守斌;张绍源;胡金龙;袁华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/56;G06F40/289;G06F16/35 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 适应 医学 文献 神经 机器翻译 模型 训练 方法 | ||
1.一种领域适应医学文献神经机器翻译模型的训练方法,其特征在于,包括以下步骤:
1)对域内和域外平行数据集进行数据预处理,包括:对域内平行数据集的中文部分使用两种以上的分词工具进行分词;对影响最终翻译效果的子词合并操作次数进行参数搜索;只基于域内平行数据集学习域内子词合并模型,并应用到域内和域外平行数据集中,生成域内和域外子词化训练集;从域内和域外子词化训练集中提取域内和域外子词词汇表作为下一步域外预训练模型和域内微调模型训练的翻译词汇表;其中,所述域内平行数据集为生物医学平行数据集,所述域外平行数据集为与生物医学不同领域的平行数据集;
2)基于域外子词化训练集进行域外子词化神经机器翻译模型的训练:使用基于fasttext分类算法或bert预训练模型对基于n-gram语言模型的数据选择法进行改进,具体改进是取代用n-gram语言模型计算句子困惑度方法,替换成训练fasttext或bert领域分类器,训练好fasttext或bert领域分类器后,对域外子词化训练集进行打分和排序,生成域外排序子词化训练集,再对域外排序子词化训练集进行域外预训练模型的训练,训练过程中采用改进的逐步微调方法,该方法是每隔k个epoch训练前设定训练集为域外排序子词化训练集的前百分之N,当训练集数量递减到大于域内子词化训练集的预设数量时,不再递减,继续训练至收敛;
3)使用步骤2)提出的改进的数据选择法,从域外平行数据集中挑选出与域内平行数据集相似的平行数据集来增强域内平行数据集,要注意的是这里的域外平行数据集不是用于训练域外预训练模型的域外平行数据集,而是另外再选择其它同样大规模的域外平行数据集;再对已增强的域内平行数据集进行域内子词合并模型的应用,生成域内子词化训练集;收集并整理出基于专家纠正的高质量中英生物医学子词化数据集,训练小型的fasttext或bert分类器,对域内子词化训练集的每一对句子对打分,得到每一对句子对的权重值并生成训练权重文件,以便将句子对的权重作为训练参数加入到域内微调过程中,最后根据权重值对小于指定阀值的句子对进行滤除;
4)结合上一步骤处理得到的域内子词化训练集和训练权重文件,基于已训练的域外预训练模型,在域内子词化训练集上进行域内微调,在域内微调过程中域内微调模型会对权重高句子对进行更多学习。
2.根据权利要求1所述的一种领域适应医学文献神经机器翻译模型的训练方法,其特征在于:在步骤1)中,只从域内平行数据集中学习联合子词模型,应用到域外平行数据集中;对域内平行数据集的中文部分使用两种以上分词工具进行分词,将中文分词结果连接起来,中英文部分都引入子词化dropout方法,进行多次重复子词化dropout,使得英文部分的每个句子拥有多种子词组合,以便与中文部分匹配,来生成域内子词化训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110332815.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种暗弱海面图片纹理清晰度提升方法
- 下一篇:一种耐高温陶瓷练泥机