[发明专利]机器翻译方法、装置、电子设备及存储介质有效
申请号: | 202211388320.X | 申请日: | 2022-11-08 |
公开(公告)号: | CN115438678B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 于彤 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/56;G06F18/214 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 215128 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 装置 电子设备 存储 介质 | ||
本发明提供一种机器翻译方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取目标语句;将目标语句输入至机器翻译模型中,得到机器翻译模型输出的目标语句对应的目标语言语句;机器翻译模型是基于样本语句、样本语句对应的第一语言语句和第二语言语句进行蒸馏训练得到的。本发明实现通过蒸馏训练,得到具备多种语言知识的机器翻译模型,以在压缩模型规模、降低计算资源消耗的同时,可以实现多语言的机器翻译,最大限度地减少初始语言模型结构的修改,且可在最大限度地保留初始语言模型的基础上取得最优的翻译性能,以实现快速精准地进行机器翻译。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种机器翻译方法、装置、电子设备及存储介质。
背景技术
机器翻译是自然语言模型比较传统的应用方向,在现有的研究中提出了多中不同方案,用以改进翻译的精度。
例如,采用预训练语言模型进行机器翻译。而很多预训练模型都是基于单语言语料数据进行训练的,在将其应用到机器翻译领域时,需要对预训练语言模型的结构进行调整或预先语言模型的学习目标进行重新调整,进而需要采用大量的样本数据对调整后的预训练模型进行重新训练,无法继承预训练模型的先验知识,增加了机器翻译过程中的计算资源的消耗。
发明内容
本发明提供一种机器翻译方法、装置、电子设备及存储介质,用以解决现有技术中对预训练语言模型的结构进行调整或预先语言模型的学习目标进行重新调整,机器翻译过程中的计算资源的消耗较大的缺陷,实现提高机器翻译的通用性,降低计算资源。
本发明提供一种机器翻译方法,包括:
获取目标语句;
将所述目标语句输入至机器翻译模型中,得到所述机器翻译模型输出的所述目标语句对应的目标语言语句;
所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的;所述第一语言语句的语言类型与所述样本语句的语言类型相同,所述第二语言语句的语言类型与所述样本语句的语言类型不相同。
根据本发明提供的一种机器翻译方法,所述机器翻译模型是基于如下步骤训练得到的:
获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句;
基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,进行蒸馏训练得到预训练机器翻译模型;
获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句;
基于所述第二样本语句以及所述第二样本语句对应的第二语言语句,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型。
根据本发明提供的一种机器翻译方法,所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,进行蒸馏训练得到预训练机器翻译模型,包括:
基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,对教师模型进行训练;
将所述第一样本语句输入至训练后的教师模型,得到所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句;
基于所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句以及所述第一样本语句,对学生模型进行蒸馏训练,得到所述预训练机器翻译模型。
根据本发明提供的一种机器翻译方法,在所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,对教师模型进行训练之前,所述方法还包括:
基于第一参数量的预训练语言模型构建教师模型,基于第二参数量的预训练语言模型构建学生模型;所述第二参数量小于所述第一参数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211388320.X/2.html,转载请声明来源钻瓜专利网。