[发明专利]一种汉英短语翻译对自动抽取与过滤方法有效
申请号: | 200810055782.3 | 申请日: | 2008-01-09 |
公开(公告)号: | CN101482860A | 公开(公告)日: | 2009-07-15 |
发明(设计)人: | 宗成庆;周玉 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 梁爱荣 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉英 短语 翻译 自动 抽取 过滤 方法 | ||
1.一种汉英短语翻译对自动抽取与过滤方法,其特征在于,自动抽取与过滤的步骤包括:
步骤1:对原始汉、英双语句对提取划分语块的特征信息,并提取对候选短语进行过滤的特征信息;所述提取划分语块的特征信息,是两个相邻单语单词间的互信息特征、双语单词间的互信息特征、t-检验(t-test)特征、χ2检验特征、Dice系数特征;提取过滤候选短语的特征,所述过滤候选短语的特征包括:单语候选短语的出现频率特征、双语候选短语的联合出现概率特征、单语候选短语词性出现系列频率特征、单语候选短语词类出现系列频率特征、双语候选短语词性系列的联合出现概率特征、双语候选短语词类系列的联合出现概率特征;
步骤2:根据不同的特征信息确定划分语块锚点,将原始汉、英双语句对划分为多个单语语块;所述确定划分语块锚点的步骤包括:
步骤21:分别利用相邻两个汉语或英语单词之间的互信息来分别对汉、英句子进行单语语块的划分;相邻单词间的互信息比较了这两个单词的联合概率与这两个单词的独立概率:
如果两个单词间存在较强的邻接关系,其联合概率将远远大于独立概率,从而互信息远远大于0;
如果不存在较强的邻接这种关系,则两个单词的联合概率和两个单词的独立概率基本相等,互信息约等于0;
如果以互补出现,则互信息远远小于0,利用两个单词之间的互信息在一定程度上反映这两个单词的联系紧密性,选择相邻词的互信息来作为划分锚点的依据;
步骤22:确定划分锚点:首先计算出当前汉英句子所有单语相邻两个单词间的互信息,然后找到那些互信息为负数的点的个数;如果互信息为负数的点的个数大于设定的阈值,则利用互信息为负数的点的位置作为初始划分锚点,并给出该点的标记,否则选择最小的几个点作为划分锚点,这最小的几个点的个数就是设定的阈值;设定阈值为句子长度除以最大短语长度;
步骤23:将最大短语长度与奥赫(Och)方法抽取短语的最大短语长度保持一致,用于与奥赫抽取方法进行对比的公正性;
步骤3:利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;所述根据词对齐信息在语块内进行候选短语的抽取的步骤包括:
步骤31:针对当前汉英句对,结合汉英句对在GIZA++工具包下生成的词对齐,利用生成的划分锚点信息确定划分点,然后利用划分点作为抽取候选短语的初始或终止点,具体操作是:找到第一个划分锚点的位置,确定汉语或英语第一个语块,遍历汉语或英语的第一个语块下所有的候选短语,结合词对齐信息,根据奥赫短语抽取方法进行遍历该语块内部的所有候选短语对抽取;
步骤32:执行完第一个语块后,重复步骤31执行下一个语块的候选短语对的抽取,直至处理完原始句子包含的所有划分语块;
步骤33:最后组合所有语块的候选短语,生成该原始汉、英双语句对的所有候选短语对;
所述根据词对齐信息在语块内进行候选短语的抽取的步骤还包括:根据不同方向的限制条件生成三组不同的短语为:汉语方向在语块内遍历短语、英语方向在语块内遍历短语和双方向都只能在语块内遍历短语;三组不同的短语呈现互补趋势,对产生的短语对以更高的权重,用于计算短语对概率打分时给予权重高的短语以更高的概率打分,在解码的时提高此类短语的位置,用于得到更好的翻译结果;
步骤4:利用候选短语的出现频率的特征信息来对生成的候选短语进一步过滤,生成需要的短语对;所述对生成的候选短语进一步过滤的步骤包括:
步骤41:利用额外的特征对生成的候选短语进行进一步的过滤,利用单语候选短语的出现频率进行约束,或利用更多的特征来进行约束过滤;
步骤42:利用单语候选短语的出现频率来进一步过滤时采用的启发函数,或逐步加入更细化的特征信息来设计启发函数;利用候选短语的出现次数来启发就是:如果候选短语的出现次数大于设定的阈值也就是短语最少出现次数,则舍弃不用;如果是新闻领域,则对那些出现次数为1的单个词短语进行了召回,用于新闻领域语料的多变性及新词系列;
对于两个单词w1,w2间的互信息用如下公式来表示:
其中p(w1,w2)表示单词w1w2的联合概率,p(w1)表示单词w1的独立概率,p(w2)表示单词w2的独立概率;c(w1,w2)表示单词w1w2同现的次数,c(w1)表示单词w1出现的次数,c(w2)表示单词w2出现的次数;N表示语料库的规模,即所有单词的个数。
2.根据权利要求1所述的汉英短语翻译对自动抽取与过滤方法,其特征在于,所述根据不同方向的限制条件生成三组不同的短语,只对汉语单语方向的短语对抽取进行约束过滤,只对英语单语方向的短语对抽取进行过滤和同时对汉英双向进行约束过滤,最后同时组合生成的这三组短语作为最终的短语列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810055782.3/1.html,转载请声明来源钻瓜专利网。