[发明专利]一种面向神经网络机器翻译的德文词法分析方法及系统有效

专利信息
申请号: 201911029182.4 申请日: 2019-10-25
公开(公告)号: CN110765766B 公开(公告)日: 2022-05-17
发明(设计)人: 张孝飞;周聪;刘煜;范婷婷;葛昱晖 申请(专利权)人: 北京中献电子技术开发有限公司
主分类号: G06F40/253 分类号: G06F40/253;G06F40/284;G06F40/242;G06F40/58
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 鄢功军
地址: 100081 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 神经网络 机器翻译 德文 词法 分析 方法 系统
【权利要求书】:

1.一种面向神经网络机器翻译的德文词法分析方法,其特征在于:包括以下步骤:

将德语单词还原成原形词而得到处理后德语单词,输入到神经网络中进行深度学习;

其中,所述将德语单词还原成原形词包括:

依次执行以下步骤,直至得到原形词:

将德语单词一一进行词典查询;

将不规则变形的变形词进行还原;

将缩写词还原成单词原形;

将规则变形的变形词进行还原;以及

将复合词拆分为独立的构成词组合;

其中,所述将复合词拆分为独立的构成词组合的步骤,具体为:

对待处理复合词进行正向最大匹配,每一次正向最大匹配的结果均保留两种形式,优先为首字母大写,其次为首字母小写,正向最大匹配时,构成词字段应不少于三个字母,并对得到的各构成词字段一一进行词典查询,若反馈为“true”,则该构成词字段进入记忆库,若反馈结果为“false”,则执行下一步骤;

对前项构成词字段和/或后项剩余字段和/或整个字段进行标志判定及标志处理;

对经过标志处理之后的后项剩余字段和/或整个字段重新进行正向最大匹配,并对得到的各构成词字段一一进行词典查询,若反馈为“true”,则该构成词字段进入记忆库,若反馈为“false”,则直接输出该复合词,不再进行拆分;

对记忆库里的构成词字段进行后处理。

2.根据权利要求1所述的面向神经网络机器翻译的德文词法分析方法,其特征在于:还包括:

将还原成功的变形词、缩写词、复合词的词法分析信息进行标注;

将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习。

3.根据权利要求2所述的面向神经网络机器翻译的德文词法分析方法,其特征在于:将德语单词一一进行词典查询的步骤,具体为:

在接收德语文本之后,对其中每一个德语单词进行词典查询,若反馈结果为“true”,则直接输出原形词;若反馈结果为“false”,则执行下一步骤。

4.根据权利要求3所述的面向神经网络机器翻译的德文词法分析方法,其特征在于:将不规则变形的变形词进行还原的步骤,具体为:

查询特殊词汇表,若反馈结果为“true”,则直接根据特殊词汇表将该变形词还原为原形,若反馈结果为“false”,则执行下一步骤。

5.根据权利要求4所述的面向神经网络机器翻译的德文词法分析方法,其特征在于:将缩写词还原成单词原形的步骤,具体为:

查询缩写词表,若反馈结果为“true”,则直接根据缩写词表将该变形词还原为原形,若反馈结果为“false”,则执行下一步骤。

6.根据权利要求5所述的面向神经网络机器翻译的德文词法分析方法,其特征在于:将规则变形的变形词进行还原的步骤,具体为:

通过词尾查询,确定适合该变形词的词形还原规则,并通过该词形还原规则进行还原;

将还原结果进行词典查询,若反馈结果为“true”,则还原成功;若反馈结果为“false”,则通过该条还原规则还原失败,通过下一条还原规则进行还原;

以此类推,若通过某条还原规则的还原结果的词典查询反馈结果为“true”,则还原成功;若所有还原规则进行完毕,词典查询反馈结果均为“false”,则执行下一步骤。

7.根据权利要求1所述的面向神经网络机器翻译的德文词法分析方法,其特征在于:

机器深度学习训练基本公式为h=g(WTx+b),其中,x为输入值,W值和b值根据由反向传播算法计算出的差值进行调整。

8.一种面向神经网络机器翻译的德文词法分析系统,其特征在于:包括:

词典查询模块,用于将单词或者处理后的单词一一进行词典查询;

特殊词汇还原模块,用于通过查询特殊词汇表将不规则变形的变形词进行还原;

缩写词还原模块,用于通过查询缩写词表将缩写词还原成单词原形;

规则还原模块,用于通过词形还原规则表将规则变形的变形词进行还原;

复合词拆分模块,用于将复合词拆分为独立的构成词组合;

标注模块,用于将还原成功的变形词、缩写词、复合词的词法分析信息进行标注;

深度学习模块,用于将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习;

其中,所述复合词拆分模块用于执行以下操作将复合词拆分为独立的构成词组合:

对待处理复合词进行正向最大匹配,每一次正向最大匹配的结果均保留两种形式,优先为首字母大写,其次为首字母小写;正向最大匹配时,构成词字段应不少于三个字母,并对得到的各构成词字段一一进行词典查询,若反馈为“true”,则该构成词字段进入记忆库,若反馈结果为“false”,则执行下一步骤;

对前项构成词字段和/或后项剩余字段和/或整个字段进行标志判定及标志处理;

对经过标志处理之后的后项剩余字段和/或整个字段重新进行正向最大匹配,并对得到的各构成词字段一一进行词典查询,若反馈为“true”,则该构成词字段进入记忆库,若反馈为“false”,则直接输出该复合词,不再进行拆分;

对记忆库里的构成词字段进行后处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中献电子技术开发有限公司,未经北京中献电子技术开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911029182.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top