[发明专利]具有错误自诊断和自纠错功能的统计机器翻译方法有效

专利信息
申请号: 201210249223.2 申请日: 2012-07-18
公开(公告)号: CN102799579A 公开(公告)日: 2012-11-28
发明(设计)人: 杜金华;王莎;郭华;张萌 申请(专利权)人: 西安理工大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 西安弘理专利事务所 61214 代理人: 张瑞琪
地址: 710048*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 具有 错误 诊断 纠错 功能 统计 机器翻译 方法
【权利要求书】:

1.一种具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。

2.按照权利要求1所述的具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,具体实现步骤如下:

步骤1、定义翻译错误类别:

具体包括五种翻译错误类别:正确、一般错误、词序错误、集外词错误、其他错误;

步骤2、训练错误分类器:

步骤2.1、采用基于动态概率潜变量模型的分类器,计算公式如下:

P(y|x,θ)=ΣhP(y|h,x,θ)P(h|x,θ),]]>

其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中定义的翻译错误类别;h表示隐含变量序列;

将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态概率潜变量模型中,得到初始模型;

步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据;

步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型进行训练,公式如下:

L(θ)=Σi=1nlogP(yi|xi,θ)-R(θ),]]>

其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率,R(θ)表示调控因子,主要防止训练过拟合;

迭代收敛后得到训练后的错误分类器;

步骤3、对测试集进行翻译错误分类:

利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假设进行错误识别和分类:

y*=argmaxyP(y|x,θ*),]]>

其中,argmax表示参数最大化运算;θ*表示步骤2得到训练后错误分类器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时,标注为序列y的概率;

步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:

对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干,构建复述词图网络;

构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2)对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用;

步骤5、源语言复述词图网络优化:

采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的词是相同的,则按概率大小保留较大的边,删除概率较小的边;

第六步,词图解码,得到自校正结果:

具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最终得到错误校正后的翻译结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210249223.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top