[发明专利]机器翻译中抽取调序模板的方法及系统有效
申请号: | 200910237390.3 | 申请日: | 2009-11-10 |
公开(公告)号: | CN101706777A | 公开(公告)日: | 2010-05-12 |
发明(设计)人: | 蔡舒 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 抽取 模板 方法 系统 | ||
1.一种机器翻译中抽取调序模板的方法,其特征在于,包括:
步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;
步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;
步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量;
所述步骤3进一步为,
步骤31,对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;
步骤32,对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
2.如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤2进一步为,
步骤21,对每一个双语句对,将所述双语句对中满足条件的句块对抽取为调序实例;
所述条件为所述句块对满足词语对齐一致性,所述句块对包括两个相邻的子句块对,并且所述两个子句块对的源语言部分在所述句块对的源语言部分的顺序与所述两个子句块对的目标语言部分在所述句块对的目标语言部分的顺序相反,且不能通过延伸所述两个子句块对中的任一子句块对得到满足词语对齐一致性的新子句块对。
3.如权利要求2所述的机器翻译中抽取调序模板的方法,其特征在于,
所述步骤21还包括,
步骤41,对每一个双语句对,根据双语句对的调序实例间的包含关系,将所述调序实例组成树状结构。
4.如权利要求3所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还包括,
步骤51,如果变量部分包含调序实例,将所述变量部分替换为变量实例对应的所述调序模板。
5.如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还包括:
步骤61,对双语对齐语料应用最大似然估计法,计算每个词对的翻译概率,根据所述词对的翻译概率计算所述调序模板的词汇化概率。
6.如权利要求1所述的机器翻译中抽取调序模板的方法,其特征在于,所述步骤3后还包括:
步骤71,对每个所述调序模板,在所述双语对齐语料中匹配所述调序模板的源语言部分和目标语言部分,获得匹配次数和完全匹配次数;
步骤72,根据所述匹配次数和完全匹配次数计算所述调序模板从目标语言到源语言的翻译概率和从源语言到目标语言的翻译概率。
7.一种机器翻译中抽取调序模板的系统,其特征在于,包括:
语料处理模块,用于输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;
调序实例抽取模块,用于对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;
调序模板生成模块,用于对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量;
所述调序模板生成模块进一步用于对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;
所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910237390.3/1.html,转载请声明来源钻瓜专利网。