[发明专利]具有错误自诊断和自纠错功能的统计机器翻译方法有效
申请号: | 201210249223.2 | 申请日: | 2012-07-18 |
公开(公告)号: | CN102799579A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 杜金华;王莎;郭华;张萌 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 张瑞琪 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 错误 诊断 纠错 功能 统计 机器翻译 方法 | ||
1.一种具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。
2.按照权利要求1所述的具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,具体实现步骤如下:
步骤1、定义翻译错误类别:
具体包括五种翻译错误类别:正确、一般错误、词序错误、集外词错误、其他错误;
步骤2、训练错误分类器:
步骤2.1、采用基于动态概率潜变量模型的分类器,计算公式如下:
其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中定义的翻译错误类别;h表示隐含变量序列;
将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态概率潜变量模型中,得到初始模型;
步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据;
步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型进行训练,公式如下:
其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率,R(θ)表示调控因子,主要防止训练过拟合;
迭代收敛后得到训练后的错误分类器;
步骤3、对测试集进行翻译错误分类:
利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假设进行错误识别和分类:
其中,argmax表示参数最大化运算;θ*表示步骤2得到训练后错误分类器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时,标注为序列y的概率;
步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:
对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干,构建复述词图网络;
构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2)对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用;
步骤5、源语言复述词图网络优化:
采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的词是相同的,则按概率大小保留较大的边,删除概率较小的边;
第六步,词图解码,得到自校正结果:
具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最终得到错误校正后的翻译结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210249223.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能折叠式车缝模板
- 下一篇:一种双电源型控制与保护开关电器