[发明专利]基于Spark的大规模短语翻译模型的训练方法有效

专利信息
申请号: 201610346396.4 申请日: 2016-05-23
公开(公告)号: CN106055543B 公开(公告)日: 2019-04-09
发明(设计)人: 黄宜华;周娟;顾荣;杨文家;黄书剑 申请(专利权)人: 南京大学
主分类号: G06F17/28 分类号: G06F17/28;G06F16/182;G06K9/62
代理公司: 苏州威世朋知识产权代理事务所(普通合伙) 32235 代理人: 杨林洁
地址: 210093*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。
搜索关键词: 基于 spark 大规模 短语 翻译 模型 训练 方法
【主权项】:
1.一种基于Spark的大规模短语翻译模型的训练方法,其特征在于在Spark平台上给定平行语料库,采用分布式调用单机多线程工具MGIZA++的模式进行词对齐训练,进而得到词对齐信息,进行分布式短语翻译模型的训练,包括以下步骤:(1)利用Spark作为分布式计算执行引擎,使用期望最大化算法总体框架构建大规模词对齐模型,在每个计算节点维护一个Spark的Java虚拟机进程运行时,同时安装单机词对齐训练工具MGIZA++,以便在进行词对齐模型训练时调用;(2)设置词对齐训练参数,对平行语料库进行分区,使用期望最大化算法对词对齐模型进行迭代训练直到达到指定次数,然后根据训练结果得到平行语料库的词对齐信息;(3)使用带有词对齐信息的平行语料库作为输入,进行短语翻译模型的分布式训练,得到短语表;所述步骤(2)中包含以下步骤:1)首先对平行语料库中的源语言和目标语言构建词典并编号;使用broadcast将词典分发到每个计算节点,完成语料库编码;对编码后的平行语料库进行分区,采用均匀分割的方式,分成N块数据分区,其中N设为集群中计算节点的数量;2)设置词对齐模型的训练序列,指定模型训练的顺序和相应的迭代次数;分析词对齐模型的训练序列,为每一次的模型迭代执行一次步骤3)和4),得到最终的模型参数;3)为每个节点上的数据分区分别调用MGIZA++进行期望最大化算法中E‑Step的训练,在每个计算节点维护一个Spark的Java虚拟机进程运行时,每个分区通过Java虚拟机进程直接调用MGIZA++进行词对齐训练,并将训练得到的部分计数文件写入到HDFS中;4)从HDFS中读取训练得到的部分计数文件,进行期望最大化算法中的M‑Step,对为不同类型的部分计数文件进行最大似然估计,得到新一轮的模型参数,然后将模型参数写入到HDFS中;5)以步骤2)中训练得到的最终的模型参数作为输入,为平行语料库中的每个句对生成最优词对齐,得到带有词对齐信息的平行语料库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610346396.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top