[发明专利]一种基于神经机器翻译的古汉语翻译方法有效
申请号: | 201811085217.1 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109359294B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王峰;高志明;谷琼;赵永标;屈俊峰 | 申请(专利权)人: | 湖北文理学院 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/216;G06F40/289;G06F40/30;G06N3/0442;G06N3/0455;G06N3/048;G06N3/047;G06N3/084 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 441053 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经 机器翻译 古汉语 翻译 方法 | ||
本发明公开了一种基于神经机器翻译的古汉语翻译方法,首先将经过标准化处理的古汉语语料进行语料标注;然后将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;最后对古汉语进行神经机器翻译。本发明不仅使先进的神经机器翻译技术的理论研究得以扩展,而且使得该技术可高效应用于古代汉语向现代汉语的实际应用中。本专利将神经机器翻译与古汉语的翻译工作相结合的研究思路,从而使这项研究成为古汉语翻译研究领域中的一大亮点。
技术领域
本发明属于计算机技术领域,涉及一种机器翻译方法,具体涉及一种基于神经机器翻译的古汉语翻译方法。
背景技术
神经机器翻译是一种通过神经网络直接实现自然语言之间端到端的自动翻译,通常采用编码器-解码器框架实现序列到序列的转换([文献1、2、9])。相对于传统的统计机器翻译,基于编码器-解码器框架的神经机器翻译具有2个优点:
(1)直接从生数据中学习特征;
编码器-解码器框架学习到的句子向量表示可将句法不同、语义相同的句子聚在一起,同时能将通过调换主语和宾语产生的句法相同、语义不同的句子区分开。
(2)能够捕获长距离依赖;
神经机器翻译通过基于长短时记忆的递归神经网络能有效捕获长距离依赖,同时通过向量表示缓解数据稀疏问题,显著提升译文的流利度和可读性([文献3])。
相对于非古汉语研究专家而言,不同时期的古代汉语的语句中,存在不少生数据(包括生字、生词以及生疏句法结构等),这些生数据的存在对古汉语翻译为现代汉语的过程造成了不少困扰,同时也引出了不少值得研究的挑战性问题([文献4、8])。同时,古代汉语的语法结构同样也存在长距离依赖的问题。例如,在翻译成现代汉语时需要补词,需要结合字词的上下文语义,需要结合被翻译字词在语句中存在的语法结构和位置等。而生数据特征学习和长距离依赖的问题是传统机器学习的方法无法予以较好解决的([文献5])。
当前,神经机器翻译中的主要代表性研究工作主要包括:为了解决神经机器翻译带来的严重未登录词问题和缺乏一种保证翻译源词既流畅又完整的翻译机制问题,Wei He等人([文献6])将统计机器翻译中的N元语言模型与神经机器翻译中的log-linear线性框架进行优势结合。为了同时改进统计机器翻译SMT的劣势(完整但不流畅)和神经机器翻译NMT的劣势(流畅但不完整)Xing Wang等人提出将SMT融入到NMT中([文献7]),即在每个解码步骤中,通过来自基于NMT的解码信息,SMT提供已生成词额外的推荐词汇,然后利用辅助分类器对SMT的推荐进行打分,并利用门阀函数将SMT推荐和NMT推荐相结合共同在NMT架构中进行端到端的训练。上述两类代表性方法具有其翻译优势,且在中英文翻译过程中取得了较好的翻译效果,但却未在古汉语到现代汉语的翻译应用中进行尝试。因此,其中的研究思路和方法值得本专利在进行古汉语翻译研究中进行部分借鉴。由于现代英语和不同时期的古汉语,不同时期的古汉语之间均存在语法和语义结构上的差异性,因此在做古汉语翻译研究时仍有特有问题需单独加以解决。
[文献1]Dzmitry Bahdanau,Kyunghyun Cho,Yoshua Bengio.Neural MachineTranslation by Jointly Learning to Align and Translate.CoRR abs/1409.0473(2014).
[文献2]刘洋.神经机器翻译前沿进展[J].计算机研究发展,2017,54(6):1144-1149.
[文献3]Hochreiter S,Schmidhuber J.Long Short-Term Memory[J].NeuralComputation,1997,9(8):1735-1780.
[文献4]孙良明.据历代专书注释语法分析谈高校古汉语语法教学(上)——兼说古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,2008(3):24-30.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北文理学院,未经湖北文理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811085217.1/2.html,转载请声明来源钻瓜专利网。