[发明专利]一种基于神经网络图灵机的蒙汉机器翻译方法有效
申请号: | 201910806869.8 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110619127B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 苏依拉;赵旭;卞乐乐;薛媛;范婷婷;高芬 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/211;G06N3/04 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 图灵机 机器翻译 方法 | ||
一种基于神经网络图灵机的蒙汉机器翻译方法,首先对蒙汉双语语料进行预处理,将蒙汉双语语料向量化,在此基础上构建出双语字典;然后通过神经网络图灵机(NTM)对存储进一步扩展,从LSTM的内部记忆单元扩展到外部存储器,引入内存机制,实现语义关系提取,给出两个实体词的语义关系;最后通过解码器模型训练,寻找最优解。与现有技术相比,本发明借助神经图灵机进行语义的分析,找出相关的语义知识进行提取,借助语义知识对于自然语言处理的精确性有很大的提升,同时利用CPU和GPU并行工作的方式对语料进行预处理,使得速度提高近一倍,进一步改进了整体翻译的质量。
技术领域
本发明属于机器翻译技术领域,特别涉及一种基于神经网络图灵机的蒙汉机器翻译方法。
背景技术
随着目前包含信息技术在内的一系列网络服务的蓬勃发展,自然语言处理尤其是机器翻译在互联网发展过程中起到至关重要的作用。许多的大型搜索企业和服务中心例如谷歌、百度等针对机器翻译都进行了大规模的研究,为获取机器翻译的高质量译文而不懈努力。
然而,随着科学家和语言学家几十年的不断努力,机器翻译在发展的过程中也暴露出无法忽略的问题——歧义词处理、未登录词处理以及双语结构差异而存在的编码混乱导致的译文质量低等问题。目前,国外很多知名大学和企业例如斯坦福大学自然语言处理小组、谷歌NLP小组和Facebook神经机器翻译部门都在相关领域的翻译任务中对上述问题提出了一定的假设解决方案并实施,无论是在英法翻译任务还是在英中翻译任务中,都没有一种兼容性很强的处理方法来解决上述出现的问题。实验结果表明,针对每一种翻译任务,有且仅存在一种符合源语言和目标语言两种语言特性的处理方案来缓解编码过程造成的一系列问题。有文献指出,从统计机器翻译的盛行的20世纪90年代到利用神经网络进行翻译建模的21世纪前10年,虽然在大体上机器翻译质量得到的不小的提高,但是在歧义词处理,非字典词语的替换等问题上仍没有得到有效的解决。因此针对翻译质量的有效提高迫在眉睫。
目前,利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经网络节点中,通过神经网络层与层之间和节点与节点之间的参数变换和传递来不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统计翻译方法中出现的很多问题,例如译码不明、错译、未登陆词处理等问题,但是在精准度上面相比人工翻译仍然存在不小的劣势。
最新的研究显示,谷歌、百度和全国知名院校的机器翻译工作进展中存在或多或少的翻译问题,有文献指出,由于世界语言的复杂性,没有一个完全解决翻译问题的系统出现,因此在粗译的前提下,如何做好细译的工作是本领域的工作重点。
发明内容
为了解决上述中主要存在的翻译过程中的漏译、错译、未登录词处理等问题,本发明的目的在于提供一种基于神经网络图灵机的蒙汉机器翻译方法,针对小语料中的数据稀少和字典小的问题,在降低系统复杂度,对用户可视化系统结构的条件下保证用户翻译服务质量,从而完善蒙汉机器翻译系统,达到较好译文翻译的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于神经网络图灵机的蒙汉机器翻译方法,首先对蒙汉双语语料进行预处理,将蒙汉双语语料向量化,在此基础上构建出双语字典;然后通过神经网络图灵机(NTM)对存储进一步扩展,从LSTM的内部记忆单元扩展到外部存储器,引入内存机制,实现语义关系提取,给出两个实体词的语义关系;最后通过模型训练,寻找最优解。
所述预处理是基于jieba分词模块和word2vec模块的分词处理,对于一长段中文文字,采用jieba分词,步骤如下:
1)首先用正则表达式将中文段落粗略分成一个个句子;
2)将每个句子构造成有向无环图,之后寻找最佳切分方案;
3)最后对于连续的单字,采用HMM模型将其再次划分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806869.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:消息处理方法、装置、终端设备
- 下一篇:一种数字化工厂的建设方法