[发明专利]来源于单语和可用双语语料库的搭配翻译有效
申请号: | 200680020698.7 | 申请日: | 2006-06-14 |
公开(公告)号: | CN101194253A | 公开(公告)日: | 2008-06-04 |
发明(设计)人: | Y·鲁;J·高;M·周;J·T·陈;M·李 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 来源于 可用 双语 语料库 搭配 翻译 | ||
1.一种包括可由计算机读取的指令的计算机可读介质,当所述指令被执行时,使所述计算机构造一个搭配翻译模型,包括以下步骤:
从单语源语料库中提取源语言搭配;
从单语目标语料库中提取目标语言搭配;
使用至少所述源和目标语言搭配来构造搭配翻译模型,其中所述搭配语言模型是基于一组特征函数的,其中所述特征函数之一包括围绕所提取的源语言搭配的上下文词语的概率信息。
2.根据权利要求1所述的计算机可读介质,其特征在于,所述搭配翻译模型是基于与所述特征函数中的至少某些的一种对数线性关系的。
3.根据权利要求1所述的计算机可读介质,其特征在于,所述上下文特征函数使用期望最大化算法来估计概率值。
4.根据权利要求3所述的计算机可读介质,其特征在于,所述期望最大化算法使用单语源和目标语言语料库来估计参数。
5.根据权利要求1所述的计算机可读介质,其特征在于,所述特征函数之一包括目标语言搭配语言模型。
6.根据权利要求1所述的计算机可读介质,其特征在于,所述特征函数之一包括源到目标语言词语翻译概率信息的词语翻译模型。
7.根据权利要求1所述的计算机可读介质,其特征在于,所述特征函数之一包括目标到源语言词语翻译概率信息的词语翻译模型。
8.根据权利要求1所述的计算机可读介质,其特征在于,还包括接收所述源和目标语言对的双语语料库。
9.根据权利要求8所述的计算机可读介质,其特征在于,所述特征函数之一包括使用所述双语语料库训练的词语翻译语言模型。
10.根据权利要求8所述的计算机可读介质,其特征在于,所述特征函数之一包括使用所述双语语料库训练的上下文翻译模型。
11.根据权利要求1所述的计算机可读介质,其特征在于,还包括以下步骤:
接收源语言语料库;
将所述源语言语料库解析成源语言依存三元组;
从所解析的源语言依存三元组中提取所述源语言搭配;
访问所述搭配翻译模型,以提取与所提取的源语言搭配中的某些相对应的搭配翻译。
12.根据权利要求11所述的计算机可读介质,其特征在于,所提取的源语言搭配中的某些是基于在所述源和目标语言之间具有高度对应性的搭配的类型来选择的。
13.一种提取搭配翻译的方法,包括以下步骤:
接收源语言语料库;
接收目标语言语料库;
从所述源语言语料库中提取源语言搭配;
通过使用期望最大化算法来估计围绕所提取的源语言搭配的上下文词语的上下文词语翻译概率值,以便对搭配翻译概率信息建模。
14.根据权利要求13所述的方法,其特征在于,所述估计上下文词语概率值包括,以所选的窗口大小来选择上下文词语。
15.根据权利要求13所述的方法,其特征在于,还包括以下步骤:
接收使用所述源和目标语言对的双语语料库;
使用所接收的双语语料库来估计词语翻译概率值。
16.根据权利要求13所述的方法,其特征在于,还包括:使用已建模的搭配翻译概率信息来提取搭配翻译字典。
17.根据权利要求16所述的方法,其特征在于,所述提取搭配翻译字典还包括:基于上下文冗余和双向翻译约束中的至少其中之一进行过滤。
18.一种提取搭配翻译的系统,包括:
适于构造源到目标语言搭配翻译模型的一模块,其中所述搭配翻译模型包括使用基于期望最大化算法迭代估计的所选源语言上下文的概率值。
19.根据权利要求18所述的系统,其特征在于,还包括:
适于使用所述搭配翻译模型来提取搭配翻译字典的第二模块,其中所述第二模块包括适于基于上下文冗余来过滤搭配翻译以生成搭配翻译候选的子模块。
20.根据权利要求19所述的系统,其特征在于,所述第二模块还包括用于基于双向约束过滤搭配翻译候选以生成搭配翻译字典的子模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680020698.7/1.html,转载请声明来源钻瓜专利网。