[发明专利]融合多层次语言特征知识的汉越神经机器翻译的方法在审
申请号: | 202011409192.3 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112541364A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 余正涛;邹翔;赖华;徐毓;文永华;朱俊国 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 多层次 语言 特征 知识 神经 机器翻译 方法 | ||
本发明涉及融合多层次语言特征知识的汉越神经机器翻译的方法,本发明分别对字符、词及短语三个不同层次的语言特征知识进行融合并分析,为了有效地利用不同层次的语言特征知识,本发明首先通过双向LSTM得到基于字符的词向量表示,然后将基于字符的词向量表示和预训练的词向量相结合,通过注意力机制,使模型能够动态地选择词向量和字符信息。其次通过在标准序列编码器的基础上构建一个短语树编码器的方法,进一步将句子中的短语信息融入到汉越神经机器翻译的序列转换过程中。实验结果表明,该融合方法可以有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。
技术领域
本发明涉及融合多层次语言特征知识的汉越神经机器翻译的方法,属于自然语言处理技术领域。
背景技术
汉语-越南语是典型的低资源语言对,可获取的资源较少,需要利用不同层次的语言特征知识来弥补资源不足的问题。而越南语具有丰富的形态变化和多样的语法结构,本发明旨在充分地挖掘和利用不同层次的语言特征知识,以解决汉越神经机器翻译所面临的资源稀缺这一难点问题。
不同层次的语言特征知识是指字符、词、短语等不同层次的序列结构中蕴含的语义信息。现有的神经机器翻译大多是以词为基础,但词向量的训练需要大规模的语料,且翻译过程中容易产生未登录词的问题。因此,有研究者考虑从更小的粒度入手,充分利用词内的信息。考虑到越南语不同的形态变化和多样的语法结构,本发明使用字符、词和短语三个层次作为语言符号序列的多层次表示,其中,字符序列能够对越南语的不同形态变化进行有效表征,任意越南语的词都是由字符序列组合而成,同时,字符序列能够有效表示词内蕴含的信息,一定程度上缓解小规模语料下更易产生的稀有词问题;词序列能够直观的刻画源语言蕴含的语义信息,符合人类习惯的表达方式,是机器翻译最早采用也是见效最快的翻译单位;短语序列则包含一定的词序和句法结构信息,有助于改进汉越神经机器翻译中的远距离依赖问题。因此,本发明提出一种融合多层次语言特征知识的汉越神经机器翻译方法。
发明内容
本发明提供了融合多层次语言特征知识的汉越神经机器翻译的方法,有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。
本发明提供的一种融合多层次语言特征知识(字符Character、词Word、短语Phrase)的汉越神经机器翻译方法。该识别方法分别对字符(Character),词(Word)及短语(Phrase)三个不同层次的语言特征知识进行融合并分析,为了有效地利用不同层次的语言特征知识,本发明首先通过双向LSTM得到基于字符的词向量表示,然后将基于字符的词向量表示和预训练的词向量相结合,通过注意力机制,使模型能够动态地选择词向量和字符信息。其次通过在标准序列编码器的基础上构建一个短语树编码器的方法,进一步将句子中的短语信息融入到汉越神经机器翻译的序列转换过程中。实验结果表明,该融合方法是实验过程中获得的一个最优的技术方案,可以有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。
本发明的技术方案是:融合多层次语言特征知识的汉越神经机器翻译的方法,所述方法的具体步骤如下:
Step1、语料收集与预处理:收集汉越平行数据,并分别使用符合汉越语言特性的预处理工具对数据进行预处理;
Step2、在Step1的基础上,使用双向的LSTM获得词内字符的向量,将字符训练计算得到的词向量与预训练的词向量结合得到融合字符特征的词向量;
Step3、深层语义特征融合:在中心语驱动的短语结构语法中,一个句子由多个短语单元组成,表示为二叉树形式,另根据句子结构,在标准序列编码器上构造基于短语树的编码器,在词的基础上进一步融入短语特征知识;
完成了融合不同层次语言特征知识的汉语神经机器翻译的实现。
进一步地,所述步骤Step1的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011409192.3/2.html,转载请声明来源钻瓜专利网。