[发明专利]一种训练翻译模型的方法和设备有效

申请号：	202110264866.3	申请日：	2021-03-12
公开（公告）号：	CN112861549B	公开（公告）日：	2023-10-20
发明（设计）人：	陈巍华;孙见青;梁家恩	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/42
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种训练翻译模型方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种训练翻译模型的方法和设备，该方法包括：获取多个单语种模型及多个单领域模型；对所有的单语种模型与所有的单领域模型分别进行裁剪，得到多个裁剪模型；对各裁剪模型中的有用分支的权值赋值为第一值，且对各裁剪模型中的无用分支的权值赋值为第二值，以得到各裁剪模型的Mask矩阵；汇总各Mask矩阵得到LDMask矩阵；对LDMask矩阵进行多语种与多领域的联合训练，得到多语种与多领域的翻译模型。本方案将模型裁剪引入到多语种、多领域的模型中，能有效的将与任务相关的权值和与任务不相关的权值分开，通过使用与任务相关的权值进行模型训练有效的提升该任务的效果，提升多语种、多领域的翻译效果。

技术领域

本发明涉及机器翻译技术领域，具体涉及一种训练翻译模型的方法和设备。

背景技术

现有技术中，对于多语种、多领域翻译通常有几种做法：第一种方式是每个语种、每个领域分别训练一个模型，这样每个模型可以对不同的语种、不同的领域进行翻译，实现多语种、多领域的翻译任务；第二种方式是将多领域、多语种任务进行联合训练，这样训练出来的多语种-多领域模型可以实现多个语种、多个领域的翻译；但是这两种方式均存在一些缺陷：

第一种方式中，每个语种、领域都单独训练一个模型，随着语种的增加、领域的增多，模型会越来越多，部署与维护成本太高；而第二种方式，其使用多领域、多语种任务进行联合训练得到多语种-多领域模型虽然可以使用一个模型完成多个语种、多个领域的翻译，但是由于不同任务之间存在相互影响，会导致翻译效果的降低。

由此，目前需要有一种更好的方案来解决现有技术中的问题。

发明内容

本发明提供一种训练翻译模型的方法和设备，能够解决现有技术中翻译效果不佳的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种训练翻译模型的方法，包括：

获取多个单语种模型及多个单领域模型；

对所有的所述单语种模型与所有的所述单领域模型分别进行裁剪，得到多个裁剪模型；

对各所述裁剪模型中的有用分支的权值赋值为第一值，且对各所述裁剪模型中的无用分支的权值赋值为第二值，以得到各所述裁剪模型的Mask矩阵；所述第一值与所述第二值不同；

汇总各所述Mask矩阵得到LDMask矩阵；

对所述LDMask矩阵进行多语种与多领域的联合训练，得到多语种与多领域的翻译模型。

在一个具体的实施例中，多个所述单语种模型是分别通过不同语种的训练数据对同一初始翻译模型进行训练得到的；