[发明专利]一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法在审

专利信息
申请号: 202111113538.X 申请日: 2021-09-23
公开(公告)号: CN113887249A 公开(公告)日: 2022-01-04
发明(设计)人: 仁庆道尔吉;程坤;庞蕊;刘馨远;麻泽蕊;尹玉娟;吉亚图;苏依拉 申请(专利权)人: 内蒙古工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/211;G06N3/04;G06N3/08
代理公司: 武汉菲翔知识产权代理有限公司 42284 代理人: 李慧奇
地址: 010051 内蒙古*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 依存 句法 信息 transformer 模型 神经 机器翻译 方法
【说明书】:

发明公开了一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,包括:依据蒙汉平行语料库抽取出汉语依存句法信息,并将依存句法信息转换成邻接矩阵;在Transformer模型的输出端额外增加一路,则Transformer模型的一路用于预测汉语目标语句,另一路学习汉语依存句法知识;在编码器端显式地加入用于学习蒙语句法信息的模块,利用汉语句法知识强化蒙语语法的学习,原始Transformer模型默认隐式地学习了源语言、目标语言的句法信息,本发明显式地利用目标语言端的句法信息指导模型对源语言的句法信息进行学习。

技术领域

本发明属于人工智能及自然语言处理技术领域,涉及蒙语到汉语的端到端的翻译,特别涉及一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法。

背景技术

不同的民族有着不同的文化、信仰和习俗,加强民族之间的交流是促进民族之间友好来的重要途径,蒙古族同胞是祖国大家庭中的一员,蒙汉翻译能有力地促进蒙古族文化与汉族文化的交流,只有在无语言阻碍的基础上进行交流才能够真正地进行文化、技术等的文化传播,蒙古族的优秀文化、艺术、知识、习俗、信仰等都可以通过蒙汉翻译进行传播,让更多的人能了解蒙古族的文化,蒙汉翻译有效地促进了蒙古族与汉族的文化交流,并为蒙古族的文化发展和中华民族的全面发展起到了推动的作用。

蒙汉机器翻译相对于其它语种的机器翻译来说,成果较少、前沿的研究比较薄弱,而其研究方法也随着世界机器翻译技术的革新而发展,总的来说蒙汉机器翻译呈现逐步从规则到统计,从统计到神经机器翻译的过渡,在这一过程中研究者会将两种或两种以上的方法进行融合以提升蒙汉机器翻译的翻译效果,目前,机器翻译以神经机器翻译技术为主流,而神经机器翻译技术在蒙汉翻译上的应用仍有很多改进之处。

蒙古语中有许多语义相同但词形不同的词语,这会使神经机器翻译中所用到的字典无法容纳足够多的蒙古语词语,同时也会使翻译模型无法学习到好的词向量,从而影响神经机器翻译的性能。

发明内容

(一)解决的技术问题

针对现有技术的不足,为了克服上述现有技术的缺点,本发明的目的在于提供一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,在Transformer的编码器中显式地添加蒙语句法学习模块,在解码器后添加汉语依存句法树的邻接矩阵来指导模型对蒙语句法的学习,在训练结束后,还可以通过蒙语学习模块还原出蒙语句法信息。

(二)技术方案

一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法,首先,运用Stanford CoreNLP对蒙汉平行语料训练集里的汉语语料进行依存句法分析,得到依存句法树,再将依存句法树转化为邻接矩阵,并将矩阵沿着主对角线对称化,称为汉语依存句法邻接矩阵,其次改进Transformer模型,一是在Transformer模型最后一个解码器输出后增加一个单向LSTM循环单元,并将单向LSTM循环单元的输出矩阵与汉语依存句法邻接矩阵按元素相减得到损失值L2,L2与Transformer模型原始输出的交叉熵损失值L1相加为模型的总损失值,二是改进Transformer模型的编码器,在编码器中设置用于学习蒙语语法的矩阵,然后利用训练集对模型进行训练,利用验证集对模型进行微调,利用测试集对模型进行评价。

优选的,所述提取汉语依存句法邻接矩阵的流程如下:

步骤1:将蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;

步骤2:利用Stanford CoreNLP对蒙汉平行语料训练集里的汉语语料进行依存句法分析,得到汉语依存句法树;

步骤3:将步骤1得到的汉语依存句法树转换为邻接矩阵存储,并将该邻接矩阵沿主对角线对称化,称为汉语依存句法邻接矩阵。

优选的,所述改进Transformer模型,增加一路输出和在编码器上加入用于学习蒙语语法的矩阵的流程为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111113538.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top