[发明专利]基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法有效

专利信息
申请号: 201910676603.6 申请日: 2019-07-25
公开(公告)号: CN110489766B 公开(公告)日: 2020-07-10
发明(设计)人: 余正涛;张勇丙;郭军军;黄于欣;高盛祥;王振晗 申请(专利权)人: 昆明理工大学
主分类号: G06F40/58 分类号: G06F40/58;G06N3/04
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 沈艳尼
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 编码 归纳 解码 推敲 资源 神经 机器翻译 方法
【说明书】:

发明涉及基于编码归纳‑解码推敲的汉‑越低资源神经机器翻译方法,属于自然语言处理技术领域。本发明受人工翻译经验的启发,提出了一种“编码归纳‑解码推敲”框架的低资源神经机器翻译方法,本发明首先基于编码网络对源语言进行编码,并提出一种基于选择性门控的语义归纳方法,拟对源语言的语义进行理解和归纳;然后将源语言归纳后的语义信息用于目标语言解码推敲,拟实现目标语言的推敲解码。本发明针对当前汉‑越低资源机器翻译语料匮乏的现实情况,实现了编码器和解码器信息的充分利用,在提升汉‑越神经机器翻译的性能的基础上并保证了译文与原文的语义相似。

技术领域

本发明涉及基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法,属于自然语言处理技术领域。

背景技术

近年来随着国际合作的日益增强,汉-越低资源机器翻译问题受到越来越广泛的关注,但是受历史种种原因的限制,相较于大语种而言,汉语-越南语高质量的平行句对较为缺乏,平行句对资源的缺乏严重限制了传统神经机器框架下的汉-越机器翻译性能。因此,非常有必要提出一种低资源神经机器翻译框架解决平行句对受限的汉-越机器翻译问题。

过去的十多年时间,随着LSTM、以及注意力机制(Attention)等方法的出现,在英汉、英法这样的大语种翻译任务中取得了非常优异的翻译效果,甚至翻译性能可以媲美人工翻译。然而,神经机器翻译的性能是基于大量的高质量双语平行语料,针对越南语、缅甸语这些低资源语种,很难获取大量质量较高的双语平行语料作为支持。因此,一部分学者开始在考虑运用半监督、回译(语料扩增)、无监督、模型修改、枢轴等方法来解决低资源神经机器翻译性能的问题。

发明内容

本发明提供了基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法,以用于解决由于汉-越平行语料资源匮乏和编解码资源利用不充分造成的汉-越神经机器翻译性能不佳等问题。

本发明的技术方案是:基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法,所述基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法的具体步骤如下:

Step1、收集汉-越双语平行句对,并将汉-越平行语料分为训练集、验证集和测试集;

Step2、将不定长的句子序列作为神经网络输入,首先经过Bi-GRU生成源语言句子的隐藏输出,然后将输出的隐状态作为反向增强神经网络的输入;通过反向增强增强神经网络得出最后的每个时间步长对应的隐状态输出,此时的隐状态表示将作为编码归纳门控神经网络输入,以及解码端计算Attention时的输入;

Step3、在Step2的基础上,将反向增强神经网络的输出经过编码归纳门控神经网络,对编码端的句子语义信息进行归纳,得到编码端源句子的归纳信息;

Step4、在Step3的基础上,将编码端的归纳信息融入到解码端,在解码时不仅考虑解码端与编码端信息的对齐,而且考虑将编码端得到的的归纳信息作为输入,不断推敲输出最后的越南语句子。

作为本发明的优选方案,所述步骤Step1中,收集整理的汉-越平行句对是通过编写网络爬虫,将网络上爬取的双语平行句对进行过滤、去重操作,得到质量较好的汉-越平行句对。

作为本发明的优选方案,所述步骤Step2是将不定长的输入序列经过三层的Bi-GRU得到每个时刻和整个输入句子的隐状态,然后将隐状态作为输入通过反向增强神经网络生成新的隐状态表示。

作为本发明的优选方案,所述反向增强神经网络具体的计算公式如下:

Exi是源语言句子对应的词嵌入向量,是句子的正向隐状态表示,是在i-1时刻句子正向隐状态表示,是在i-1时刻句子正向隐状态表示,h'i表示编码端每个时间步长对应的最后的隐状态表示,α表示正向的隐状态与整个句子隐状态表示s0的一个权重向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910676603.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top