[发明专利]机器翻译模型的训练方法、机器翻译方法、装置及设备在审
申请号: | 202111389048.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114154520A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 陈钰枫;梁晓珂;王帅博;徐金安;李翔 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 模型 训练 方法 装置 设备 | ||
本申请公开了一种机器翻译模型的训练方法、机器翻译方法、装置及设备,属于计算机技术领域,该方法包括:获取训练样本集,训练样本集包括训练样本及该训练样本对应的标准翻译文本;将训练样本及训练样本对应的标准翻译文本输入机器翻译模型中,获取机器翻译模型在反向传播过程中产生的梯度向量;基于梯度向量和多个噪音词为训练样本生成对抗样本;基于训练样本和对抗样本对机器翻译模型进行对抗训练,得到目标机器翻译模型。该训练方法生成的对抗样本对机器翻译模型攻击性较大,并且增加了训练数据的多样性,由此提高了机器翻译模型的鲁棒性,进而提高了机器翻译模型的翻译性能,使得通过机器翻译模型得到的翻译结果更加准确。
技术领域
本申请涉及计算机技术领域,特别涉及一种机器翻译模型的训练方法、机器翻译方法、装置及设备。
背景技术
随着计算机技术的不断发展,基于神经网络的机器翻译模型在翻译性能上表现优异,采用机器翻译模型进行机器翻译逐渐发展成为目前主流的翻译方法。然而,由于神经网络的脆弱性,当实际应用和真实环境中出现预期之外的输入偏移、扰动和人为攻击等噪音时,机器翻译模型的翻译性能会明显下降。因此,如何提高噪音环境下机器翻译模型的稳健鲁棒性,成为亟待解决的问题。
相关技术中,为了提高机器翻译模型的稳健鲁棒性,会在机器翻译模型的训练阶段,通过文本编辑操作(如插入、删除、替换、交换等方式)为训练样本生成对抗样本,然后,基于生成的对抗样本训练机器翻译模型。
但是,文本编辑操作可能导致句子的语义发生变化,或者导致句子的语法逻辑混乱,使得生成的对抗样本的攻击性较弱,进而使得机器翻译模型在特定噪音下的翻译性能不稳定,通过该机器翻译模型得到的翻译结果不够准确。
发明内容
本申请提供了一种机器翻译模型的训练方法、机器翻译方法、装置及设备,能够解决相关技术中的问题。
第一方面,提供一种机器翻译模型的训练方法,所述方法包括:
获取训练样本集,所述训练样本集包括训练样本及所述训练样本对应的标准翻译文本;将所述训练样本及所述训练样本对应的标准翻译文本输入机器翻译模型中,获取所述机器翻译模型在反向传播过程中产生的梯度向量;基于所述梯度向量和多个噪音词为所述训练样本生成对抗样本;基于所述训练样本和所述对抗样本对所述机器翻译模型进行对抗训练,得到目标机器翻译模型。
在一种可能的实施方式中,所述基于所述梯度向量和多个噪音词为所述训练样本生成对抗样本,包括:对所述训练样本进行采样,根据采样结果得到目标词向量,所述目标词向量为需要被替换的词向量;从所述多个噪音词的向量空间中获取所述目标词向量对应的至少一个候选词向量;基于所述梯度向量,从所述至少一个候选词向量中选择所述目标词向量对应的目标候选词向量;将所述训练样本中的所述目标词向量替换为所述目标候选词向量,得到对抗样本。
在一种可能的实施方式中,所述基于所述梯度向量,从所述至少一个候选词向量中选择所述目标词向量对应的目标候选词向量,包括:基于所述梯度向量更新所述目标词向量,得到更新词向量;从所述至少一个候选词向量中,选择与所述更新词向量距离最大的候选词向量作为目标候选词向量。
在一种可能的实施方式中,所述基于所述梯度向量更新所述目标词向量,得到更新词向量,包括:从所述梯度向量中获取所述目标词向量对应的目标梯度向量;沿所述目标梯度向量的方向更新所述目标词向量,得到所述更新词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111389048.2/2.html,转载请声明来源钻瓜专利网。