[发明专利]一种基于图像描述生成的多模态机器翻译数据增强方法有效
申请号: | 202011212067.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112257465B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06V30/40;G06V30/19;G06V10/80;G06V10/82;G06N3/0464;G06N3/0442;G06N3/045;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 描述 生成 多模态 机器翻译 数据 增强 方法 | ||
本发明公开一种基于图像描述生成的多模态机器翻译数据增强方法,其步骤为:用预训练好的图像编码信息和对应的图像描述,训练基于注意力机制的图像描述生成模型;用训练好的图像描述生成模型,对已有的多模态训练数据中的图片进行编码和解码,生成对应的源语图像描述文本;将生成的源语图像描述文本翻译成目标语,构造伪数据;将构造的伪数据添加进多模态训练数据中,将多模态训练数据中的图片信息与源语描述信息进行融合,送入多模态机器翻译模型中,采用自回归的方式,生成辅以图像上下文信息的目标语译文。本发明丰富了伪数据的多样性,能从知识精炼中获得性能的提升,相较于普通的采用随即替换等方式的数据增强方法,有着较大的优势。
技术领域
本发明涉及一种机器翻译数据增强技术,具体为一种基于图像描述生成的多模态机器翻译数据增强方法。
背景技术
机器翻译(Machine Translation,简称MT)是采用计算机进行自然语言之间相互翻译的一门实验学科。利用机器翻译技术,可以将一门源语言自动地转化为目标语言。机器翻译作为消除人们跨语言交流障碍的关键技术,一直是自然语言处理研究的重要组成部分。相比于人工翻译,机器翻译效率更高并且成本更低,对于促进民族团结和文化交流有着重要意义。机器翻译技术可以概括为基于理性主义的方法和基于经验主义的方法两种,自20世纪40年代提出至今,机器翻译已经经历了近70年的发展,发展历史大致可以分为三个阶段:基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。
基于规则的机器翻译技术采用人工构造规则的方法,对源语输入进行相应转换,得到目标翻译结果。这种方法的缺点在于需要大量的人工代价来构造规则,规则覆盖范围有限并且会出现冲突,使得系统可扩展性和鲁棒性差。之后,研究人员采用基于统计的机器翻译技术,利用统计方法进行建模,完全舍弃了对手工规则的依赖。统计机器翻译需要对大量的双语平行语料进行统计分析,从而构造统计翻译模型来完成翻译。近年来,神经网络在机器翻译领域受到了广泛的关注。神经机器翻译采用端到端的编码器-解码器框架,编码器将源语输入编码成一个稠密的语义向量,解码器负责参考语义向量进行自回归解码,生成最终的翻译结果。尽管如此,这种神经机器翻译框架的主要缺点是解码器只依赖于编码器的最后状态,当句子较长时可能会恶化性能。为了克服这个问题,研究人员提出了基于注意力的编解码器框架。对于注意力模型,在每个时间步骤中,解码器依赖于前面的LSTM隐藏状态和上下文向量,上下文向量是编码器中隐藏状态的加权和。在注意力集中的情况下,译码器可以“刷新”记忆,把注意力集中在有助于翻译正确单词的源词上,而不是只看到句子中单词和单词顺序缺失的最后状态。
大多数的机器翻译任务只关注于文本句对,如源语和目标语构建的平行语料。然而,在真实的世界里,翻译任务往往与人们所看到的信息有着很大的关联,而不仅仅只依赖文字上的理解。于是多模态机器翻译应运而生,得到很大的发展。其中,图片和文字相结合的翻译方法是多模态翻译任务中比较常见的一种。图片信息除了能够提供额外的上下文语境外,还能够帮助翻译任务进行歧义消除。例如,“bank”这个单词既可以表示银行,又可以表示河岸。如果仅仅只看文字,我们无法知道哪个意思是正确的。但是如果同时给你一张有条小河的图片,你就能将“bank”正确地翻译成“河岸”了。
然而,多模态翻译任务的训练数据往往比较稀缺。目前比较常用的两个数据集Flickr30K和Multi30K,他们都只包含3万张图片,每张图片附有5个描述性的双语句对,因此实际包含的平行语料只有150000句,相对于机器翻译任务来说显然是比较稀缺的。不仅如此,由于描述性的句子往往比较简单直白,因此句长较短,内容也比较单调,训练数据也缺乏多样性。因此,利用数据增强方法构造伪数据,对多模态翻译来说是一个很有效的方法。然而,传统的数据增强技术只是简单地对源语句子的某些单词进行删除、替换。或者对图像进行偏移,旋转。但这类方法往往只能提高模型的鲁棒性,这对训练数据稀缺的多模态翻译来说显然是不合适的。
发明内容
针对现有多模态翻译训练数据比较稀缺,传统的数据增强技术效果不够好等问题,本发明提出一种基于图像描述生成的多模态机器翻译数据增强方法,采用图像描述生成模型来构造伪数据,对训练数据进行扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011212067.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于小型智能移动设备的机器翻译解码加速方法
- 下一篇:多列静态称重机
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序