[发明专利]来源于单语和可用双语语料库的搭配翻译有效
申请号: | 200680020698.7 | 申请日: | 2006-06-14 |
公开(公告)号: | CN101194253A | 公开(公告)日: | 2008-06-04 |
发明(设计)人: | Y·鲁;J·高;M·周;J·T·陈;M·李 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 来源于 可用 双语 语料库 搭配 翻译 | ||
发明背景
本发明通常涉及自然语言处理。更具体地,本发明涉及搭配翻译。
依存三元组(dependency triple)是一种词汇上受到限制的、具有特殊句法或依存关系的词语对,具有通式<w1,r,w2>,其中w1和w2是词语,r是依存关系。例如,如<开启,Obj,灯>的依存三元组是一个动宾(verb-object)依存三元组。在一个句子的词语之间存在多种类型的依存关系,因此存在多种类型的依存三元组。搭配是依存三元组的一种类型,其中单个词语w1和w2,通常分别被称为“头(head)”和“依存词(dependant)”,满足或超过一个选定的相关性阈值。搭配的常见类型包括主谓、动宾、名词-形容词和动词-副词的搭配。
观察到,虽然在源语言和目标语言之间存在巨大的差异,但在特定的源语言和目标语言中的一些搭配类型之间仍然存在较强的对应。例如,中文和英文是差异很大的语言,然而在主谓、动宾、名词形容词和动词-副词的搭配上又存在较强的对应。这些搭配类型中的较强对应使得希望采用搭配翻译来将短语和句子从源语言翻译成目标语言。这样,搭配翻译对机器翻译、交叉语言信息检索、第二语言学习以及其它双语自然语言处理应用非常重要。常常会由于搭配的特殊性因此具有不可预测的翻译而造成搭配翻译错误。换句话说,源语言中的各个搭配可能具有相对于彼此的类似结构和语义,但在目标语言的结构和语义上翻译差异非常大。
例如,假定中文动词“kan4(看)”是一个中文动宾搭配的头,词语“kan 4”根据“kan4”与之搭配的宾语或依存词可以被译为英文的“see”,“watch”,“look”或“read”。例如,“kan4”与中文词“dian4ying3(电影)”搭配(其表示英文中的film或movie),或“dian4shi4(电视)”,其通常表示英文中的“television”。但是中文搭配“kan4 dian4ying3”和“kan4 dian4shi4”,根据句子,最好各自翻译为英文的“see film”和“watch television”。因此,虽然搭配“kan4dian4ying3”和“kan4 dian4shi4”具有类似的结构和语义,但词语“kan 4”被译成不同的英文。
在另一种情况中,“kan4”可以搭配词语“shu1(书)”,它通常指的是英文中的“book”。但是,在许多句子中,搭配“kan4 shu1”最好地仅被译为英文中的“read”,因此,在搭配翻译中省略了宾语“book”。
值得注意的是,此处中文词语是以拼音表示的,声调被表示为罗马字母表示的发音之后的数字。拼音是普通话中文发音的常用识别系统。
过去,搭配翻译方法通常依赖于源语言和目标语言的平行语料库或双语语料库。但是,通常难以得到一个较大的对齐的双语语料库且其构造相当昂贵。相反,对源语言和目标语言,更容易得到一个更大的单语语料库。
近来,开发了采用单语语料库的搭配翻译方法。但是,这些方法通常不包括使用可用或在有限数量上可用的双语语料库。而且,采用单语语料库的这些方法通常不考虑正在翻译的搭配周围的上下文词语。
因此,仍然需要用于各种自然语言处理应用的搭配翻译和提取的改进方法。
发明概述
本发明包括使用单语语料库和可用的双语语料库构造搭配翻译模型。该搭配翻译模型采用了一个与关于正在翻译的搭配周围的上下文词语的期望最大化算法。在其它实施例中,搭配翻译模型被用来标识并提取搭配翻译。在另一些实施例中,所构造的翻译模型和所提取的搭配翻译用作句子翻译。
附图简述
图1是可在其中实现本发明的一个计算环境的框图;
图2是示出本发明三方面的总流程图;
图3是一个用于使用对搭配翻译有用的概率信息扩充词汇知识库的系统的框图;
图4是一个用于以所提取的搭配翻译来进一步扩充词汇知识库的系统的框图;
图5是一个用于使用扩充的词汇知识库来执行句子翻译的系统的框图;
图6是一个示出以对搭配翻译有用的概率信息来扩充词汇知识库的流程图;
图7是一个示出以所提取的搭配翻译来进一步扩充词汇知识库的流程图;
图8是一个示出为句子翻译使用扩充的词汇知识库的流程图。
说明性实施例的详细描述
对于自然语言处理,包括机器翻译和交叉语言信息检索来说,自动搭配翻译是一个非常重要的技术。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680020698.7/2.html,转载请声明来源钻瓜专利网。