[发明专利]具有错误自诊断和自纠错功能的统计机器翻译方法有效

申请号：	201210249223.2	申请日：	2012-07-18
公开（公告）号：	CN102799579A	公开（公告）日：	2012-11-28
发明（设计）人：	杜金华;王莎;郭华;张萌	申请（专利权）人：	西安理工大学
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	西安弘理专利事务所 61214	代理人：	张瑞琪
地址：	710048***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具有错误诊断纠错功能统计机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有错误自诊断和自纠错功能的统计机器翻译方法，其特征在于，首先定义翻译错误类别，训练错误分类器，对测试集进行翻译错误分类，然后目标语言端翻译错误映射到源语言端并构建复述词图网络，源语言复述词图网络优化，最后进行词图解码，得到自校正结果。

2.按照权利要求1所述的具有错误自诊断和自纠错功能的统计机器翻译方法，其特征在于，具体实现步骤如下：

步骤1、定义翻译错误类别：

具体包括五种翻译错误类别：正确、一般错误、词序错误、集外词错误、其他错误；

步骤2、训练错误分类器：

步骤2.1、采用基于动态概率潜变量模型的分类器，计算公式如下：

P(y|x,θ)=ΣhP(y|h,x,θ)P(h|x,θ),]]>

其中，P(y|x,θ)表示翻译假设被标注为序列y的概率；θ是模型参数；x是观察序列，具体指翻译译文中的词序列；y是标注序列，具体指步骤1中定义的翻译错误类别；h表示隐含变量序列；

将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态概率潜变量模型中，得到初始模型；

步骤2.2、选定模型参数训练开发集，按照步骤1定义的翻译错误类别对开发集中的翻译假设进行错误类型标注，得到监督学习的训练样本数据；

步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型进行训练，公式如下：

L(θ)=Σi=1nlogP(yi|xi,θ)-R(θ),]]>

其中，L(θ)表示未知参数的最大似然估计，n表示样本向量个数，i表示某一样本向量，P(y_i|x_i,θ)表示样本x_i在参数为θ条件下标注为序列y_i的概率，R(θ)表示调控因子，主要防止训练过拟合；

迭代收敛后得到训练后的错误分类器；

步骤3、对测试集进行翻译错误分类：

利用步骤2得到的训练后的错误分类器，采用如下公式对测试集翻译假设进行错误识别和分类：

y*=argmaxyP(y|x,θ*),]]>

其中，argmax表示参数最大化运算；θ^*表示步骤2得到训练后错误分类器的参数；y^*表示分类结果；P(y|x,θ^*)表示在已知模型参数θ^*和样本x时，标注为序列y的概率；

步骤4、目标语言端翻译错误映射到源语言端，并构建复述词图网络：

对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语言端，确定相应源语言短语或词S_i的位置及边界，然后从源语言复述库中查找S_i的复述，并取前多个作为S_i的复述候选，以源语言输入初始句子为主干，构建复述词图网络；

构建复述词图网络过程中，对翻译假设中的词根据其翻译错误类别标识进行复述构建，即：1）对于分类为“正确”的词，不进行复述词图构建；2）对于分类为“一般错误”、“集外词错误”和“其他错误”的词，直接从复述库中查找复述候选，然后构建词图；3）对于分类为“词序错误”的词，在构建词图时，将所对应的边进行调序标记，供解码时调序惩罚约束使用；

步骤5、源语言复述词图网络优化：

采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并重复的路径，具体是将原词图中的结点按边进行对齐，若两结点间的边上的词是相同的，则按概率大小保留较大的边，删除概率较小的边；

第六步，词图解码，得到自校正结果：

具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码，最终得到错误校正后的翻译结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210249223.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]具有错误自诊断和自纠错功能的统计机器翻译方法有效

专利文献下载