[发明专利]一种融合语义知识的蒙汉神经机器翻译方法有效
申请号: | 202011554602.3 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112580370B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 苏依拉;薛媛;赵旭;卞乐乐;范婷婷;仁庆道尔吉 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06F40/211;G06F40/289;G06F40/284 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 语义 知识 神经 机器翻译 方法 | ||
1.一种融合语义知识的蒙汉神经机器翻译方法,基于编码器-解码器架构,其特征在于,所述编码器为由编码器E1和编码器E2组成的双编码器架构,利用编码器E1编码源语言句子向量,利用编码器E2编码源语言句子向量所对应的AMR语义图,所述AMR语义图的基本结构是单根有向无环图,将实词抽象为概念作为图上的节点,将没有实际意义的虚词抽象为边,编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码;
所述编码器E1采用双向GRU单元编码源句子向量,所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图,每一个完整的AMR语义图为一个单一的状态,图中的节点称为子状态;
给定一个AMR语义图G=(V,E),V表示节点的集合,E表示边的集合,表示每个节点vj∈V的状态向量,则AMR语义图的状态gi表示为:
i∈[0,T]
为捕获全局信息,节点之间通过一系列的状态转换进行信息交换,即:g0,g1,…,gT,其中T是状态转换数,伴随着状态转换,图中的子状态通过边交换信息,在每个循环步骤中,每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态;
在所述图卷积神经网络中加入GRU循环单元,用更新门zt表示前一时刻节点的状态信息带入当前时刻的程度,用重置门rt来控制前一时刻节点信息写入当前时刻的多少,节点的隐藏状态的信息包含该节点的入边和出边信息,边的输入信息用表示,i表示入边的索引,j表示出边的索引,lb表示边上的标签,即两点之间的关系标签,节点vj在t时刻的入边和出边信息表示为:
IN(j)和OUT(j)分别表示节点vj所有入边和出边的集合;
一个AMR语义图由gt-1到gt的状态转换用如下公式表示:
其中γt表示节点的输出信息,Wr、Wz、Wo分别表示权重矩阵,表示使用重置门之后得到的隐藏状态,再通过更新门得到新的隐藏状态向量σ表示sigmod函数;
所述非自回归解码器D采用具有双注意力机制的循环神经网络,一部分用于接收源语言序列信息,另一部分用于接收AMR语义图信息,其中AMR语义图中仅接收图的最后一个状态的信息,即
2.根据权利要求1所述融合语义知识的蒙汉神经机器翻译方法,其特征在于,在编码之前对蒙汉平行语料库进行预处理:对于汉语首先采用jieba分词工具去掉标点符号,并在词之间加上空格,并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图;对于蒙古语采用BPE进行细粒度的切分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011554602.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:背光控制方法及笔记本电脑
- 下一篇:一种高效SCR脱硝催化剂制备工艺