[发明专利]一种GRU神经网络蒙汉机器翻译方法在审
申请号: | 201910940595.1 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110738062A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 苏依拉;卞乐乐;赵旭;薛媛;范婷婷;张振 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/08;G06N3/04 |
代理公司: | 61215 西安智大知识产权代理事务所 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 解码 神经网络 翻译 正向 预处理 固定长度向量 机器翻译系统 神经网络构建 机器翻译 上下文信息 转换成目标 语义 编码生成 翻译结果 方向编码 逆向编码 输出目标 双向编码 双语语料 统一处理 语句转换 源语言 向量 语句 整合 语言 混乱 | ||
一种GRU神经网络蒙汉机器翻译方法,首先对翻译语言进行预处理,然后对一定规模的蒙汉双语进行Encoder‑Decoder模型的搭建和训练,并对蒙汉双语语料进行编码统一处理,最后基于Encoder‑Decoder模型得到翻译结果,Encoder‑Decoder模型由神经网络构建而成,其中一个神经网络为LSTM,负责Encoder编码,其采用双向编码设置,即对源语言进行正向编码和逆向编码,将源语句转换成两个不同方向编码且固定长度的向量,另一神经网络为GRU,负责Decoder解码,其从正向和逆向两个方向进行解码,即解码输出目标语言的时候会自动整合上下文信息,由此将编码生成的固定长度向量转换成目标语句,本发明结合蒙汉语言特点,使蒙汉机器翻译系统表达能力更加流畅,更接近人类表达,减少了翻译过程中语义丢失和翻译混乱的程度。
技术领域
本发明属于机器翻译技术领域,涉及蒙汉机器翻译,特别涉及一种GRU神经网络蒙汉机器翻译方法。
背景技术
现阶段随着互联网行业的飞速发展,包括信息技术等一系列IT行业的不断崛起,而针对自然语言处理的机器翻译在对整个互联网行业的发展起到一定的促进作用。像谷歌,百度等大型的搜索服务行业面对行业的发展都针对机器翻译领域进行了较大规模的科研。为不断获得较高质量的译文不断研究。
尽管科研机构为了获得更好的翻译效果仍然在不断地努力着,但是机器翻译随着技术领域的发展仍然暴露出来越来越多的问题。例如,机器翻译比较生硬,其中的程序都是设计好,翻译中出现错误的概率非常的高,有时甚至出现各种语法错误。遇到比较长的段落翻译出来就很难理解,不符合正常的逻辑。翻译出的东西可读性比较差。同时也无法体现句子的语法特征,翻译出的稿件比较粗糙,生涩难懂。简单说就是语病百出,生硬难懂,只能进行简单的词语短句的翻译。而歧义词的处理和语法结构的差异而导致的译文质量低是机器翻译尤为突出的问题。现在全球很多著名的大学实验室都针对机器翻译领域存在的上述问题进行了研究,然而在各种翻译任务中,都没有一种兼容性很强的处理方法来解决上述存在的问题。但是目前来看,针对特定的两种语言来进行翻译存在着一种解决编码问题而导致翻译质量低的解决方案。但是针对多语言,歧义处理,非字典的替换等问题上并没有很好的解决方案。所以对翻译质量的有效提高迫在眉睫。
目前,利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经网络节点中,通过神经网络层与层之间和节点与节点之间的参数变换和传递来不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统计翻译方法中出现的很多问题,例如译码不明、错译、未登陆词处理等问题,但是在精准度上面相比人工翻译仍然存在不小的劣势。
由于内蒙古地区经济发展相对缓慢,蒙汉平行语料库收集困难,利用现有神经网络方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。在翻译系统中,编码器和解码器的计算复杂度比较高,由于计算量和GPU内存的限制,神经机器翻译模型需要事先确定一个规模受到限制的常用词词表,神经机器翻译系统往往将词汇表限制为高频词,并将其他所有低频词视为未登录词。蒙古语属于黏着语,黏着语的一个特点是通过在词根的前、中、后缀接其他构词成分作为派生新词的手段,因此蒙古文构词及其形态变换非常丰富,导致的集外词和未登录现象频发。
发明内容
为了解决上述现有技术中主要存在的翻译过程中漏译、错译、未登录词处理等问题,本发明的目的在于提供一种GRU神经网络蒙汉机器翻译方法,利用CPU和GPU并行工作的方式对语料进行处理使得速度提高近一倍,且通过设定的学习率对语料进行学习可以有效的缓解学习语料语义表达过程中存在的局部最优问题和由于快速收敛导致的编码质量低的问题,通过设定特殊的结构和算法来改进整体系统的质量。针对小语料中的数据稀少和字典小的现状,在降低系统复杂度,对用户可视化系统结构的条件下保证用户翻译服务质量,从而完善蒙汉机器翻译系统,达到较好译文翻译的目标。
为了实现上述目的,本发明采用的技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910940595.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:古诗词生成方法、装置、设备及存储介质
- 下一篇:扫描装置和模块化电源