[发明专利]基于Spark的大规模短语翻译模型的训练方法有效

申请号：	201610346396.4	申请日：	2016-05-23
公开（公告）号：	CN106055543B	公开（公告）日：	2019-04-09
发明（设计）人：	黄宜华;周娟;顾荣;杨文家;黄书剑	申请（专利权）人：	南京大学
主分类号：	G06F17/28	分类号：	G06F17/28;G06F16/182;G06K9/62
代理公司：	苏州威世朋知识产权代理事务所(普通合伙) 32235	代理人：	杨林洁
地址：	210093***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于Spark的大规模短语翻译模型的训练方法，包括以下步骤：首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式，在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练，生成带有词对齐信息的平行语料库；接着使用上一步生成的带有词对齐信息的双语语料数据，在Spark平台上实现了短语翻译模型的并行化训练，最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法，解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。
搜索关键词：	基于 spark 大规模短语翻译模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark的大规模短语翻译模型的训练方法，其特征在于在Spark平台上给定平行语料库，采用分布式调用单机多线程工具MGIZA++的模式进行词对齐训练，进而得到词对齐信息，进行分布式短语翻译模型的训练，包括以下步骤：(1)利用Spark作为分布式计算执行引擎，使用期望最大化算法总体框架构建大规模词对齐模型，在每个计算节点维护一个Spark的Java虚拟机进程运行时，同时安装单机词对齐训练工具MGIZA++，以便在进行词对齐模型训练时调用；(2)设置词对齐训练参数，对平行语料库进行分区，使用期望最大化算法对词对齐模型进行迭代训练直到达到指定次数，然后根据训练结果得到平行语料库的词对齐信息；(3)使用带有词对齐信息的平行语料库作为输入，进行短语翻译模型的分布式训练，得到短语表；所述步骤(2)中包含以下步骤：1)首先对平行语料库中的源语言和目标语言构建词典并编号；使用broadcast将词典分发到每个计算节点，完成语料库编码；对编码后的平行语料库进行分区，采用均匀分割的方式，分成N块数据分区，其中N设为集群中计算节点的数量；2)设置词对齐模型的训练序列，指定模型训练的顺序和相应的迭代次数；分析词对齐模型的训练序列，为每一次的模型迭代执行一次步骤3)和4)，得到最终的模型参数；3)为每个节点上的数据分区分别调用MGIZA++进行期望最大化算法中E‑Step的训练，在每个计算节点维护一个Spark的Java虚拟机进程运行时，每个分区通过Java虚拟机进程直接调用MGIZA++进行词对齐训练，并将训练得到的部分计数文件写入到HDFS中；4)从HDFS中读取训练得到的部分计数文件，进行期望最大化算法中的M‑Step，对为不同类型的部分计数文件进行最大似然估计，得到新一轮的模型参数，然后将模型参数写入到HDFS中；5)以步骤2)中训练得到的最终的模型参数作为输入，为平行语料库中的每个句对生成最优词对齐，得到带有词对齐信息的平行语料库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610346396.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Spark的大规模短语翻译模型的训练方法有效

专利文献下载