[发明专利]一种融合语义知识的蒙汉神经机器翻译方法有效

专利信息
申请号: 202011554602.3 申请日: 2020-12-24
公开(公告)号: CN112580370B 公开(公告)日: 2023-09-26
发明(设计)人: 苏依拉;薛媛;赵旭;卞乐乐;范婷婷;仁庆道尔吉 申请(专利权)人: 内蒙古工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/30;G06F40/211;G06F40/289;G06F40/284
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 语义 知识 神经 机器翻译 方法
【说明书】:

一种融合语义知识的蒙汉神经机器翻译方法,基于编码器‑解码器架构,其特征在于,采用双编码器进行编码,采用GRU单元编码源句子序列,采用图卷积神经网络编码由源句子经过预处理得到的AMR语义图,解码器采用具有双注意力机制的循环神经网络。将AMR引入,不仅可以很好地借助语义信息来辅助神经机器翻译,还可以有效地缓解数据稀疏问题,从而提高蒙汉神经机器翻译的性能。

技术领域

发明属于机器翻译技术领域,特别涉及一种融合语义知识的蒙汉神经机器翻译方法。

背景技术

蒙古语属于小语种,蒙汉机器翻译系统在解决蒙汉人民之间由于语言差异引起的交流障碍问题方面作出了很大的贡献。现阶段的机器翻译大多为序列到序列建模,随着深度学习的日益发展,数据驱动成为其成功的必要条件,但蒙古语属于低资源语言,蒙汉平行语料库的资源匮乏,想要得到大规模语料十分困难,少量的训练数据会使神经网络产生过拟合学习现象,因此现阶段的蒙汉机器翻译很容易出现数据稀疏问题。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种融合语义知识的蒙汉神经机器翻译方法,翻译过程涉及借助AMR语义图来获取上下文语境,并采用双编码器来分别编码源语言句子和由源语言句子生成的AMR语义图。一方面可以执行句子的语义保存,另一方面图结构信息的引入可以有效缓解数据稀疏问题。但是图结构的引入势必会使得推理过程变得十分缓慢,为了进一步克服这一缺点,本发明采用非自回归地解码方式,将AMR语义图解码生成的信息作为序列解码的隐变量。

为了实现上述目的,本发明采用的技术方案是:

一种融合语义知识的蒙汉神经机器翻译方法,基于编码器-解码器架构,所述编码器为由编码器E1和编码器E2组成的双编码器架构,利用编码器E1编码源语言句子向量,利用编码器E2编码源语言句子向量所对应的AMR语义图,所述AMR语义图的基本结构是单根有向无环图,将实词抽象为概念作为图上的节点,将没有实际意义的虚词抽象为边,编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码。

在编码之前对蒙汉平行语料库进行预处理:对于汉语首先采用jieba分词工具去掉标点符号,并在词之间加上空格,并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图;对于蒙古语采用BPE进行细粒度的切分。

优选地,所述编码器E1采用双向GRU单元编码源句子向量,所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图,每一个完整的AMR语义图为一个单一的状态,图中的节点称为子状态。

优选地,给定一个AMR语义图G=(V,E),V表示节点的集合,E表示边的集合,表示每个节点vj∈V的状态向量,则AMR语义图的状态gi表示为:

i∈[0,T]

为捕获全局信息,节点之间通过一系列的状态转换进行信息交换,即:g0,g1,...,gT,其中T是状态转换数,伴随着状态转换,图中的子状态通过边交换信息,在每个循环步骤中,每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态。

优选地,在所述图卷积神经网络中加入GRU循环单元,用更新门zt表示前一时刻节点的状态信息带入当前时刻的程度,用重置门rt来控制前一时刻节点信息写入当前时刻的多少,节点的隐藏状态的信息包含该节点的入边和出边信息,边的输入信息用表示,i表示入边的索引,j表示出边的索引,lb表示边上的标签,即两点之间的关系标签,节点vj在t时刻的入边和出边信息表示为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011554602.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code