[发明专利]融合多层次语言特征知识的汉越神经机器翻译的方法在审

专利信息
申请号: 202011409192.3 申请日: 2020-12-03
公开(公告)号: CN112541364A 公开(公告)日: 2021-03-23
发明(设计)人: 余正涛;邹翔;赖华;徐毓;文永华;朱俊国 申请(专利权)人: 昆明理工大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/284;G06F40/289;G06N3/04;G06N3/08
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 何娇
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 多层次 语言 特征 知识 神经 机器翻译 方法
【说明书】:

发明涉及融合多层次语言特征知识的汉越神经机器翻译的方法,本发明分别对字符、词及短语三个不同层次的语言特征知识进行融合并分析,为了有效地利用不同层次的语言特征知识,本发明首先通过双向LSTM得到基于字符的词向量表示,然后将基于字符的词向量表示和预训练的词向量相结合,通过注意力机制,使模型能够动态地选择词向量和字符信息。其次通过在标准序列编码器的基础上构建一个短语树编码器的方法,进一步将句子中的短语信息融入到汉越神经机器翻译的序列转换过程中。实验结果表明,该融合方法可以有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。

技术领域

本发明涉及融合多层次语言特征知识的汉越神经机器翻译的方法,属于自然语言处理技术领域。

背景技术

汉语-越南语是典型的低资源语言对,可获取的资源较少,需要利用不同层次的语言特征知识来弥补资源不足的问题。而越南语具有丰富的形态变化和多样的语法结构,本发明旨在充分地挖掘和利用不同层次的语言特征知识,以解决汉越神经机器翻译所面临的资源稀缺这一难点问题。

不同层次的语言特征知识是指字符、词、短语等不同层次的序列结构中蕴含的语义信息。现有的神经机器翻译大多是以词为基础,但词向量的训练需要大规模的语料,且翻译过程中容易产生未登录词的问题。因此,有研究者考虑从更小的粒度入手,充分利用词内的信息。考虑到越南语不同的形态变化和多样的语法结构,本发明使用字符、词和短语三个层次作为语言符号序列的多层次表示,其中,字符序列能够对越南语的不同形态变化进行有效表征,任意越南语的词都是由字符序列组合而成,同时,字符序列能够有效表示词内蕴含的信息,一定程度上缓解小规模语料下更易产生的稀有词问题;词序列能够直观的刻画源语言蕴含的语义信息,符合人类习惯的表达方式,是机器翻译最早采用也是见效最快的翻译单位;短语序列则包含一定的词序和句法结构信息,有助于改进汉越神经机器翻译中的远距离依赖问题。因此,本发明提出一种融合多层次语言特征知识的汉越神经机器翻译方法。

发明内容

本发明提供了融合多层次语言特征知识的汉越神经机器翻译的方法,有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。

本发明提供的一种融合多层次语言特征知识(字符Character、词Word、短语Phrase)的汉越神经机器翻译方法。该识别方法分别对字符(Character),词(Word)及短语(Phrase)三个不同层次的语言特征知识进行融合并分析,为了有效地利用不同层次的语言特征知识,本发明首先通过双向LSTM得到基于字符的词向量表示,然后将基于字符的词向量表示和预训练的词向量相结合,通过注意力机制,使模型能够动态地选择词向量和字符信息。其次通过在标准序列编码器的基础上构建一个短语树编码器的方法,进一步将句子中的短语信息融入到汉越神经机器翻译的序列转换过程中。实验结果表明,该融合方法是实验过程中获得的一个最优的技术方案,可以有效地利用不同层次的语言特征知识弥补汉越语言对资源不足的问题,一定程度上提升了汉越翻译模型的性能。

本发明的技术方案是:融合多层次语言特征知识的汉越神经机器翻译的方法,所述方法的具体步骤如下:

Step1、语料收集与预处理:收集汉越平行数据,并分别使用符合汉越语言特性的预处理工具对数据进行预处理;

Step2、在Step1的基础上,使用双向的LSTM获得词内字符的向量,将字符训练计算得到的词向量与预训练的词向量结合得到融合字符特征的词向量;

Step3、深层语义特征融合:在中心语驱动的短语结构语法中,一个句子由多个短语单元组成,表示为二叉树形式,另根据句子结构,在标准序列编码器上构造基于短语树的编码器,在词的基础上进一步融入短语特征知识;

完成了融合不同层次语言特征知识的汉语神经机器翻译的实现。

进一步地,所述步骤Step1的具体步骤为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011409192.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top