[发明专利]基于变分推理和多任务学习的多模态机器翻译方法有效
申请号: | 202010867461.4 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112016332B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 孙仕亮;刘啸;赵静;张楠 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 推理 任务 学习 多模态 机器翻译 方法 | ||
本发明公开了一种基于变分推理和多任务学习的多模态机器翻译方法,该方法具备翻译能力前,首先得用变分推理理论对图像、文本等多模态信息进行多任务建模,然后在给定足量训练集的情况下,训练得到变分多模态机器翻译模型,由此获得机器翻译能力。最后本方法通过束搜索和最大似然来预测出多个翻译文本。本发明的创新点在于创建并使用了一种能够将图像等多模态信息融入机器翻译的模型:变分多模态机器翻译。本发明的变分模型构建了一套混淆图像和文本语义的特征提取神经网络框架,同时推导出了建模过程和自我学习更新过程,给出了详细的推导算法,并指导性的给出了应用方法。
技术领域
本发明涉及计算机技术领域,涉及机器翻译技术,特别涉及一种基于变分推理和多任务学习的多模态机器翻译方法。
背景技术
背景技术涉及四大块:变分推理与变分编码器-解码器框架,信息瓶颈理论,多任务学习,神经机器翻译。
1)变分推理与变分编码器-解码器(Variational Inference and VariationalEncoder-Decoder)
变分推理是一种常见的近似推理技术。变分编码器-解码器是其在机器翻译领域的一个重要应用。变分编码器-解码器由变分自编码器(Variational Auto Encoder)推广而来,将输入数据x映射为不同的输出数据y。与一般的编码器-解码器框架不同,变分编码器-解码器将x编码后会经过一个变分层再解码成y,这样相当于为x增加了一个噪声,有助于增加模型的鲁棒性。
变分编码器-解码器的框架图如图2所示,这里以正态分布做变分后验分布为例。经编码器编码后的特征会分别经过一个全连接层,转换成潜在语义表示z变分分布的均值μz和方差σz,然后再从正态分布N(μz,σz)中采样得到z,最后输入解码器解码成y。这里的正态分布就是对真实后验分布p(z|x,y)的近似。
给定变分分布的数学形式,变分推理通过最小化变分分布和真实分布的KL散度得到真实后验分布的近似。直接优化这个KL散度是困难的,变分推理通过它与证据(evidence)的关系得到证据下界(Evidence lower bound,ELBO)作为优化目标,推导如下,
log p(x,y)=KL[q(z|x,y),p(z|x,y)]+logp(x,y|z)-KL[q(z|x,y),p(z)]
≥log p(x,y|z)-KL[q(z|x,y),p(z)]
其中log p(x,y)即证据,q(z|x,y)和p(z|x,y)分别是变分后验分布和真实后验分布,log p(x,y|z)可以表示模型的似然,KL[q(z|x,y),p(z)]是KL正则项,它们共同组成了证据下界。从上式看,最小化变分分布和真实后验之间的KL散度即最大化证据下界。
在深度学习中,通常使用重参数化技巧求得变分分布参数的梯度,然后采取基于梯度的优化方法最大化证据下界。
变分机器翻译模型通常近似后验分布p(z|x,y),其中x是源语言句子,y是目标语言句子。在变分分布的计算中,需要同时知道x和y。然而在推理过程中,y是不知道的,这导致变分机器翻译在推理过程中引入了额外的网络结构或是特殊的推理算法,导致整个模型的复杂度增高。
2)信息瓶颈理论(Information Bottleneck Theory)
信息瓶颈理论认为应该找到输入数据x的一个压缩映射,这个映射会尽可能地保留有用的信息并过滤冗余信息。信息瓶颈理论以互信息为度量,将优化目标设为如下形式,
argmaxz I(z,y)s.t.I(x,z)≤Ic.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010867461.4/2.html,转载请声明来源钻瓜专利网。