[发明专利]一种基于神经网络的汉维-维汉机构名词典的挖掘系统在审
申请号: | 202010140934.0 | 申请日: | 2020-03-03 |
公开(公告)号: | CN111368035A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 艾山·吾买尔;徐翠云;斯拉吉艾合麦提·如则麦麦提;刘文其;早克热·卡德尔;买合木提·买买提;汪烈军;刘胜全 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06N3/04 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 张丽 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 机构 词典 挖掘 系统 | ||
本发明公开了一种基于神经网络的汉维‑维汉机构名词典的挖掘系统,由基于TextCNN模型和LSTM模型的机构名分类器;基于Moses模型,Transformer模型和GNMT模型的机构名翻译模型,融合以上最优的结果,首先对句子进行识别机构名,然后进行选择是否在词典之中,之后利用分类器进行分类,最后利用翻译模型进行反向翻译,获得双语机构名加入词典之中。该发明提供一个具有较好反向翻译的翻译模型,不断挖掘尽可能数量多且质量高的机构名词典的系统。本系统主要是基于词典、分类以及神经网络的翻译模型。通过对比不同的分类模型以及不同的翻译模型,选取最优的模型挖掘出高质量的汉维机构名词典。
技术领域
本发明属于机器翻译领域,具体涉及一种基于神经网络的汉维-维汉机构名词典的挖掘系统。
背景技术
随着深度学习在自然语言处理中的不断应用,基于神经网络的机器翻译方法在双语资源丰富的语种获得较好的发展,翻译的质量也得到了大幅度的提升,然而在机器翻译中仍然存在差强人意的情况。对于翻译,我们首先对500个句子人工进行错误分析,发现错误翻译的单词、语法错误、漏翻译、命名实体翻译等是最主要的翻译错误。对于资源匮乏的语言,因为语料库中出现的命名实体出现频率较低,命名实体翻译错误率较高。需要大量的命名实体词典来提高翻译的质量,命名实体作为在自然语言中承载信息和表达语义的主要载体,其翻译质量是直接影响机器翻译系统性能的重要因素之一。因此,该发明对资源匮乏的汉维-维汉机构名翻译以及词典的挖掘进行研究。
卷积神经网络(convolutional neural network,CNN)最先由Yann LeCun在1988年提出的一种用于图像处理的前馈式神经网络,由于近几年神经网络的迅速发展,卷积神经网络也在不断地发展完善,目前也已经取代SVM,成为图像分类、手写体识别等计算机视觉领域的任务中性能最优秀也是应用最广泛的机器学习模型。它被设计用来在大规模结构中识别出具有指示性的局部预测器,然后将它们结合生成固定大小的向量用来表示该结构,以此捕获对当期预测任务中信息最多的局部特征。卷积神经网络一般是由以下五个部分来组成,输入层、卷积层、池化层、全连接层和Softmax层,结构图1所示。
循环神经网络(recurrent neural network,RNN)是进行序列数据处理的神经网络语言模型,能够利用记忆历史信息来预测长距离依赖的当前输出。循环神经网络是由输入层、隐含层以及输出层组成。理论来讲,RNN具有长距离记忆能力,然而因为梯度消失,梯度爆炸问题,很难来处理长距离依赖问题。Hochreiter和Schmidhuber等提出了长短时记忆单元(long short-term memory,LSTM),与RNN相似,仅仅是对隐藏层单元内部结构进行了复杂化的改造,能够进行长距离依赖关系学习,此模型也被许多学者进行改进。综上所述,所以我设计了一种基于神经网络的汉维-维汉机构名词典的挖掘系统。
发明内容
为了解决上述存在的问题,本发明提供一种基于神经网络的汉维-维汉机构名词典的挖掘系统。
本发明是通过以下技术方案实现:
一种基于神经网络的汉维-维汉机构名词典的挖掘系统,由基于TextCNN模型和LSTM模型的机构名分类器;基于Moses模型,Transformer模型和GNMT模型的机构名翻译模型,融合以上最优的结果,首先对句子进行识别机构名,然后进行选择是否在词典之中,之后利用分类器进行分类,最后利用翻译模型进行反向翻译,获得双语机构名加入词典之中,所述TextCNN模型的分类模型由输入层、卷积层、池化层、全连接层和Softmax层等五层构成;所述输入层将输入序列转换为向量表示,传入网络,故用glove来预训练好词向量;所述卷积层的主要功能是为输入向量中捕获重要的特征信息;所述基于Transformer模型的翻译模型,采用中文按照字符切分,维文采用音节级别的切分方法,获得了很好的翻译效果,在进行机构名反向翻译中获得了最好的翻译结。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010140934.0/2.html,转载请声明来源钻瓜专利网。