[发明专利]一种基于多分支网络结构加速翻译模型训练速度的方法在审
申请号: | 202110637196.5 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113392655A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 杜权;刘兴宇;徐萍 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分支 网络 结构 加速 翻译 模型 训练 速度 方法 | ||
本发明涉及一种基于多分支网络结构加速翻译模型训练速度的方法,步骤为:清洗来自公开数据集的训练数据,去除数据中包含乱码的句子,分别对双语数据进行分词、去重和平行语料的长度比过滤,得到可靠的双语数据;修改开源的翻译模型结构,构建新的多分支翻译模型;使用与翻译模型不同的训练策略对多分支翻译模型进行训练;用户向模型输入源文,多分支翻译模型使用束搜索进行模型推断,生成用户输入源文的译文。本发明更加有效地学习语料知识,在能保证模型性能的条件下,具有更快的训练速度,一定程度上缓解了传统模型训练较慢的缺陷,将多分支网络结构成功地运用在了神经机器翻译中,完备了多分支网络在神经机器翻译中的应用。
技术领域
本发明涉及一种神经机器翻译技术领域,具体为一种基于多分支网络结构加速翻译模型训练速度的方法,构建一个全新的翻译模型,在保证翻译性能的前提下提高了翻译模型训练速度。
背景技术
2015年以来神经机器翻译普遍被接受,呈现全面发展状态。早在这之前,机器翻译常用范式仍是统计机器翻译。神经机器翻译的基本建模思想和统计机器翻译相同,均是依赖统计建模和数据驱动,然而神经机器翻译使用人工神经网络结构,通过人工神经元之间的连接建立数学模型,使计算机可以进行分析、学习和推理。神经机器翻译的这种建模方式使其不需要对语言进行特征工程,即不需要人为设计语言特征,由于不同语种、不同语言使用领域语言的特征均不同,在此神经机器翻译节省了很大的人力物力。并且错误的特征工程将导致错误的结果,神经机器翻译通过自动学习到的这些语言特征对问题的描述会更加全面和准确。并且神经机器翻译模型结构统一,不需要依赖比如语言模型模块、词对齐模型模块等等,仅由一个端到端的人工神经网络模型就能完成上述模块工作。然而神经机器翻译需要人工设计网络结构,不同的结构对模型性能有很大的影响。
其中深度神经网络和宽度神经网络都能够提高网络性能,越深的网络越能捕获更高级的句子特征,而越宽的网络可以捕获的特征种类越多。在神经机器翻译中,为了达到更好的效果,模型结构愈加复杂。早期,研究人员主要使用循环神经网络对单词序列进行建模,即通常使用单向浅层循环神经网络学习单词的词嵌入表示。其后为了更有效的利用循环神经网络进行机器翻译建模,更高效的循环神经单元如长短记忆结构、门控循环单元等被提出,同时更复杂的模型结构,如双向循环神经网络(为了同时捕获网络当前时刻前文和后文的信息)、多层循环神经网络(提高模型抽象能力)也被提出。并且注意力机制的引入帮助模型获得更好的效果。谷歌于2016年推出的谷歌神经机器翻译系统,构建了8层双向循环神经网络,且编码器和解码器之间运用了注意力机制进行连接,该模型的翻译效果在当时处于领导地位,为神经机器翻译性能带来了很大提升。然而循环神经网络中每个循环单元均有前向依赖性,模型并行运算困难,效率低,对此,一种全新的完全基于自注意力机制的模型结构——Transformer被提出。该模型最基础的结构是由6层的编码器和6层的解码器堆叠而成,然后随着科研人员的探索,类似的更深的Transformer能够获得更好的性能。纵观来看,模型结构都是向着更加复杂,更能捕获句子特征,更有效的方向发展。
除了更深和更宽,在图像领域,网络结构更是丰富多彩,更多支路、更轻量等的结构在图像领域的卷积神经网络中运用广泛,然而这些结构鲜有在神经机器翻译系统中出现,相较于简单模型,多分支结构能够帮助模型捕获不同维度空间的信息,换句话说,在多分支网络中,模型能够学习更多的语义信息,因此更有可能解码出质量更高的译文。同时,由于多分支网络特别的初始化策略,其能够更快的收敛。
发明内容
针对现有神经机器翻译模型结构中,模型性能越好的模型其结构越深,参数量越大,模型所需训练时间越长,且图像领域中更高效的多分支网络结构鲜有被探索于神经机器翻译中,为了解决以上问题本发明提供一种基于多分支网络结构加速翻译模型训练速度的方法,能够在保证模型性能的条件下,大幅缩短模型训练所需时间。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于多分支网络结构加速翻译模型训练速度的方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110637196.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动档案扫描装置
- 下一篇:一种截短的苦参异戊烯基转移酶及其应用