[发明专利]一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法在审
申请号: | 201811231017.2 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109492232A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 苏依拉;张振;高芬;王宇飞;孙晓骞;牛向华;赵亚平;卞乐乐 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 注意力机制 语义特征 解码器架构 语义 概念语义 三角函数 位置编码 相似程度 依赖关系 语言特点 语言特征 编码器 蒙古文 相似度 增强型 重合度 综合分析 词干 词缀 递归 多层 构建 卷积 单词 多头 绘制 翻译 输出 衡量 融入 全局 研究 | ||
本文提出了一种基于Transformer模型的增强语义特征信息的蒙汉机器翻译方法。首先,本发明从蒙古文的语言特点出发,找出其在词干、词缀以及格的附加成分的特征,并将这些语言特征融入到模型的训练之中。其次,本发明以衡量两个单词间的相似程度的分布式表示为研究背景,综合分析了深度和密度、语义重合度对概念语义相似度的影响。本发明在翻译过程中,采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器‑解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。
技术领域
本发明属于机器翻译技术领域,特别涉及一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法。
背景技术
蒙古语是一种黏着语,隶属于阿尔泰语系。蒙古文书面文字有传统蒙古文和西里尔蒙古文,这里我们所研究的蒙汉翻译系统中的“蒙”指的是传统蒙古文到汉文的翻译。传统蒙古文也是一种拼音文字,字母的形态并不唯一,形态的变化与字母在单词中的位置相关,位置包括词的单独开头、词中和词尾。蒙古文的单词由词根(root)+词缀(suffix)的方式形成,词缀分为两类:一类用于缀接到词根的后面赋予原来的词以新的含义,叫做派生词缀,词根后面缀接一个或多个派生词缀就会形成词干(stem);另一类缀接到词干后面用于表达语法意义。蒙古文的名词、动词都存在时态、数、格等多种变化,这些变化同样是通过缀接词缀来实现,因此蒙古文词形变化非常复杂。此外,蒙古文的语序与汉语有很大的差别,蒙古文的动词在主语和谓语的后面,位于句子的末尾,而汉语中动词位于主语和宾语之间。
与one-hot表示只使用向量的一个维度不同,单词的分布式表示,使用低维稠密实数向量来表示单词。在该低维向量空间中,可以方便地根据距离或角度等度量方式,衡量两个单词间的相似程度。另外,在技术层面上,在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。然而,Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。但是目前word2vec实现语义相关度计算时有一定的局限性,一方面使用待生成译文的局部上下文信息作为预测译文的依据,没有使用全局的上下文信息,所以对上下文信息的利用不充分,语义特征的提取还存在提升空间。另一方面,由于框架本身的结构限制了计算的并行化,计算效率有待于提高。
传统的机器翻译系统,大多数是基于循环神经网络(RNN)、长短期记忆(LSTM)或者门控递归神经网络(GRU)的。在过去几年这些方法已经成为机器翻译等序列建模和转换问题最先进的方法。然而递归模型通常考虑沿输入和输出序列的符号位置的计算。将位置与计算时间中的步骤对齐,它们产生一系列在位置t输入的隐藏状态ht,同时也是先前隐藏状态ht-1的函数。这种固有的顺序特性排除了训练示例中的并行化,并行化在较长的序列长度中变得至关重要,因为内存约束限制了跨越示例的批处理。最近的工作通过分解技巧和基于条件的计算实现了计算效率的显著提高,同时在后者的情况下也提高了模型性能。然而,顺序计算的基本约束仍然存在。
目前编码器-解码器框架是解决序列到序列问题的一个主流模型。模型使用编码器对源语言句子进行压缩表示,使用解码器基于源端的压缩表示生成目标语言句子。该结构的好处是可以实现两个句子之间端到端方式的建模,模型中所有的参数变量统一到一个目标函数下进行训练,模型表现较好。图1展示了编码器-解码器模型的结构,从底向上是一个机器翻译的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811231017.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种国际语言自动配备客服的购物系统
- 下一篇:一种机器翻译方法和装置