[发明专利]混合深度学习网络与单词生成统计学指导的机器翻译方法有效
申请号: | 202010455897.2 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111597831B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 张逸钿;兰萍;杨丹;何花;吴志强 | 申请(专利权)人: | 西藏大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/51;G06F40/216;G06F16/35 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 850000 西藏*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混合 深度 学习 网络 单词 生成 统计学 指导 机器翻译 方法 | ||
本发明提供的一种混合深度学习网络与单词生成统计学指导的机器翻译方法,该方法以NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统性能具有重要的现实意义。
技术领域
本发明涉及面向机器翻译技术领域,更具体的,涉及一种混合深度学习网络与单词生成统计学指导的机器翻译方法。
背景技术
机器翻译研究是对如何通过计算机实现两种自然语言间翻译任务的技术研究,机器翻译技术现已广泛应用于人们的生产、生活当中。目前,机器翻译研究主要面临以下研究难点:第一,从语言学的角度出发,自然语言具有多样性、多变性和歧义性。同样的单词、短语或句子在不同的语境中可能代表不同的意思,不同甚至意义相反的单词、短语或句子在同一语境中有时却能表达相同的含义;自然语言还常存在语言语法不规范的问题,因其表达的灵活性,仅从语言学角度出发都难以寻找能够全面覆盖语法的统一规则;新字、新词和错别字的混用,亦是计算机识别和理解自然语言的主要障碍。第二,从数学建模的角度出发,即便语言学能够提供一个完全覆盖语言语法的统一规则,能够及时、正确对新字、新词、错别字进行更新和更错,也难以建立一个能够尽可能包含文字信息、理解语义并且符合计算机可承受能力的数学模型。第三,从语料的角度出发,什么样的语料正确反应语言特点,如何采集或获取这样的语料都是机器翻译研究所面临的重要问题。
在能够提供优质语料,解决第三个研究难点的基础下,统计机器翻译(Statistical Machine Translation,SMT)方法与基于神经网络的机器翻译(NeuralMachine Translation,NMT)方法针对第一、第二个研究难点采用了不同的解决方案。SMT方法通过对大量平行语料的统计学分析及统计特征提取,赋予语言统计学意义,将不同语种间的语义语法关系建模为统计学关系,能够在机器翻译任务中得到较准确的翻译结果;而NMT方法以“编码-译码”模型为基础,搭建深度学习网络,将语言互译过程建模为“编码+译码”的过程,充分适应自然语言多样性、多变性的问题,在完成机器翻译任务上展现出优秀的性能。然而,受限于自身建模方法和翻译机制,上述两种机器翻译方法同样具有难以克服的不足之处。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西藏大学,未经西藏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010455897.2/2.html,转载请声明来源钻瓜专利网。