[发明专利]一种神经机器翻译系统的动态大小训练批形成方法和系统在审

专利信息
申请号: 202111248013.7 申请日: 2021-10-26
公开(公告)号: CN114021547A 公开(公告)日: 2022-02-08
发明(设计)人: 刘小峰 申请(专利权)人: 华中科技大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/289;G06F40/58;G06N3/02;G06N3/08
代理公司: 华中科技大学专利中心 42201 代理人: 胡秋萍
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 神经 机器翻译 系统 动态 大小 训练 形成 方法
【说明书】:

发明公开一种神经机器翻译系统的动态大小训练批形成方法和系统,基于神经机器翻译领域。包括:解析平行语料,对语料进行切分和向量化,得到向量化句对;对向量化句对进行分块,按照词条数对向量化句对块中的句对进行升序排序;按照批大小对句对块中排序后句对进行分组和填充,批大小为一批中所有句对的长度之和,形成训练批。本发明在神经机器翻译系统训练中根据句子词条数动态调整训练批大小,经排序后,句对块中的短的句对居前,并且长度接近的句对相邻,由于词条数接近的句对排序后在块中位置相邻,分组后的每组中的句对在词条数上比较接近,需要填充的句对和填充的长度较少,在相同显存下可形成平均长度更大的训练批,提高训练效率和效果。

技术领域

本发明属于基于深度学习的神经机器翻译领域,更具体地,涉及一种神经机器翻译系统的动态大小训练批形成方法和系统。

背景技术

神经机器翻译现在已经成为机器翻译的事实标准,并取得目前最好的机器翻译效果。神经机器翻译系统的翻译效果高度依赖在大规模平行语料上的训练。通过将平行语料分成多个迷你批mini-batch并进行反向传播和梯度下降是目前各种神经机器翻译系统训练普遍采用的技术。

目前,神经机器翻译系统的基本训练方法是,在迷你批或训练批上先正向推理计算系统在训练批上的损失,接着反向计算损失对模型参数的梯度,最后根据梯度更新模型参数。通常,一个平行语料划分为多个训练批,神经机器翻译系统在语料的训练批上进行迭代训练。这是一种近似训练方法,它用训练批上的损失近似训练数据上损失的期望。在这个过程中,训练批的大小对训练效果和训练效率影响极大。训练批越大,模型越可以充分利用GPU的并行性,训练速度越快,而训练批上计算的损失对参数的梯度估计也越准确,模型收敛也越快,训练更容易找到最优结果的接近点。因此,只要硬件允许,各种神经机器翻译系统都会使用尽可能大的训练批。另外,为了保证训练效果,训练语料都需要先混洗再分成训练批,因此常常同一训练批中句子长度不一,而一般神经机器翻译系统需要训练批中数据长度一致,这通常通过对训练批中句子进行填充到统一长度来实现。因此,具有相同句子数且句子长度填充一致的训练批是目前神经机器翻译系统的训练批的基本做法。

采用相同句子数且句子长度填充一致的训练批虽然使得神经机器翻译系统的训练数据准备较简单,实现也比较容易。但是,这种训练批形成方法存在以下几个方面的问题:首先,经过混洗的句子原始长度不一,且可能长度差别较大,使用填充达到一致长度意味着神经机器翻译系统对每批中很多数据的处理是无意义的(因为有较多的无意义内容填充),这降低了GPU训练的实际有效吞吐量,也会降低训练的训练速度;其次,相同句子数且句子长度填充一致的训练批的长度由最长句子的长度决定,即使很多句子长度远远小于最长句子长度,也必须填充一致,这会影响最终的训练批的大小,即,最长句子越长,训练批会越小或包含的句子数越小,而过小的训练批会让更新权重的梯度估计不准确,神经机器翻译模型收敛也更慢,从而要么需要更长的训练时间才能达到可以接受的性能,要么更难接近全局最优。

发明内容

针对现有神经机器翻译系统中具有相同句子数训练批带来的机器翻译模型训练效率和训练效果较差的缺陷和改进需求,本发明提供了一种神经机器翻译系统的动态大小训练批形成方法和系统,其目的在于根据句子词条数动态调整训练批大小,训练批平均可以包括更多的句对,也就是平均批大小更大,这可以降低神经机器翻译系统的训练收敛时间,提高训练效率。

为实现上述目的,按照本发明的第一方面,提供了一种神经机器翻译系统的动态大小训练批形成方法,该方法包括:

S1.解析平行语料,对语料进行切分和向量化,得到向量化句对;

S2.对向量化句对进行分块,按照词条数对向量化句对块中的句对进行升序排序;

S3.按照批大小对句对块中排序后句对进行分组和填充,所述批大小为一批中所有句对的长度之和,形成训练批。

优选地,步骤S1包括:

S11.对平行语料进行解析,得到源语言和目标语言句对流;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111248013.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top