[发明专利]一种基于神经机器翻译的古汉语翻译方法有效

专利信息
申请号: 201811085217.1 申请日: 2018-09-18
公开(公告)号: CN109359294B 公开(公告)日: 2023-04-18
发明(设计)人: 王峰;高志明;谷琼;赵永标;屈俊峰 申请(专利权)人: 湖北文理学院
主分类号: G06F40/58 分类号: G06F40/58;G06F40/44;G06F40/216;G06F40/289;G06F40/30;G06N3/0442;G06N3/0455;G06N3/048;G06N3/047;G06N3/084
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 441053 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经 机器翻译 古汉语 翻译 方法
【权利要求书】:

1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:

步骤1:将经过标准化处理的古汉语语料进行语料标注;

步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;

步骤3:对古汉语进行神经机器翻译;

步骤3的具体实现包括以下子步骤:

步骤3.1:判断语料是否为低资源语料;判断语料是否为低资源语料的标准有如下两个:(1)语料是否为封闭的有限语料,若是,则为低资源语料;(2)语料作为源翻译语料时,源翻译语料的所有词汇是否能在目标语料中找到恰当的词与之对应,若不能,则为低资源语料;

若是,则执行下述步骤3.2;

若否,则执行下述步骤3.3;

步骤3.2:将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;

首先,对已知的古汉语语料利用神经机器模型进行翻译训练,训练得出的模型为高资源语料模型,称为父模型;

然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库上进行尝试性的翻译训练,训练模型为低资源语料模型,称之为子模型;其中语料库的样本数目低于阈值时的语料库为小样本的语料库,也称为低资源语料库;

步骤3.3:对待翻译内容进行中文分词,判断翻译内容是否存在集外词的情况;

若是,则执行下述步骤3.4;

若否,则执行下述步骤3.5;

步骤3.4:采用“基于Top-N词频的源翻译表”进行处理;

由于语法结构的差异性导致翻译结果在翻译表中概率低于阈值者,将被记为集外词,暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的;

步骤3.5:对古汉语进行基于注意力机制的神经机器翻译。

2.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤1中所述标准化处理,包括去噪、文本标准化、词频统计、语义分析和语法分析。

3.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤2中所述将标注后的结果进行处理,包括分词和词频统计。

4.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.2中,将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分;同时对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,可达到确定对翻译规则进行重构的目的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北文理学院,未经湖北文理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811085217.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top