[发明专利]训练基于短语的翻译模型的方法、机器翻译方法及其装置无效
申请号: | 200810190509.1 | 申请日: | 2008-12-25 |
公开(公告)号: | CN101763344A | 公开(公告)日: | 2010-06-30 |
发明(设计)人: | 胡晓光;吴华;王海峰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;刘瑞东 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 基于 短语 翻译 模型 方法 机器翻译 及其 装置 | ||
技术领域
本发明涉及信息处理技术,具体地涉及统计机器翻译技术,更具体地涉及通过使用命名实体知识来改进基于短语的统计机器翻译的质量的技术。
背景技术
机器翻译技术主要分为:基于规则的机器翻译和基于语料库的机器翻译。
在基于语料库的机器翻译中,主要的翻译资源来源于语料库。基于语料库的机器翻译又分为:基于实例的机器翻译和基于统计的机器翻译。对于基于统计的机器翻译,基于短语的统计机器翻译方法是目前最主要的自动翻译方法之一。
基于短语的统计机器翻译方法的基本翻译单元是短语,其所应用的翻译知识包括翻译模型和语言模型。翻译模型利用双语语料库中的平行双语语料获得,由平行双语语料中互为翻译的双语短语对及其互相翻译的概率组成。在此,短语的定义是由一个或多个连续的词组成的片段。语言模型利用目标语言的单语语料库获得,其用从目标语言的单语语料库中统计出来的概率来描述生成译文的流利程度。翻译的性能随着语料库的规模的增加而提高。
常规的基于短语的统计机器翻译的过程主要包括:首先,对于待翻译的句子,使用匹配方法搜索翻译模型,查找与该句子对应的、所有匹配的双语短语对;然后,基于这些双语短语对以及语言模型,采用统计方法选出该句子的目标语言译文片段的组合中得分最高的那一个,作为待翻译的句子的正确目标语言译文。
图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图1所示,该系统100主要包括输入单元101、查找单元102、译文生成单元103、输出单元104、翻译模型30以及语言模型40等。
在系统100中,输入单元101是该系统100与外部的接口,该系统100通过输入单元101从外部获得待翻译的句子。
查找单元102进行短语的匹配。具体地,查找单元102对通过输入单元101获得的待翻译的句子,使用匹配算法在通过使用双语语料库10统计分析获得的翻译模型30中查找与该输入句子对应的、匹配的双语短语对。
译文生成单元103生成该输入句子的正确目标语言译文。具体地,译文生成单元103基于查找单元102所查找的双语短语对以及通过使用单语语料库20统计分析获得的语言模型40,利用统计方法选出该输入句子的、可能的目标语言译文中得分最高的那一个,作为该输入句子的正确目标语言译文。
由译文生成单元103生成的该目标语言译文通过输出单元104输出。
图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中,对于输入句子“美国总统布什4月将访问日本”,图1的系统100的查找单元102利用短语的匹配技术,在翻译模型30中找到与该输入句子对应的五个匹配的双语短语对:(P1)美国总统<=>The US president;(P2)布什<=>Bush;(P3)4月<=>in April;(P4)将访问<=>will visit;(P5)日本<=>Japan。并且,根据这五个双语短语对,系统100的译文生成单元103使用语言模型40得到最终的译文“The US president will visit Japan inApril”。
从上面可以看出,在常规的基于短语的统计机器翻译系统中,对于待翻译的输入句子,只有双语短语对中的源语言短语和输入句子中的短语精确匹配时,该短语对才可以用于翻译。对于输入句子中的那些包含命名实体的短语,由于命名实体在语料库中出现的次数较少,通常很难直接匹配上,因此需要切分成多个比较短的短语才能匹配。如图2所示的示例中,输入句子中的“美国总统布什”由于没有作为一个整体在语料库中出现,需要进一步切分为“美国总统”和“布什”后才能用短语对匹配。此外,输入句子中的“4月将访问日本”由于没有作为一个整体在语料库中出现,需要进一步切分为“4月”、“将访问”和“日本”后才能用短语对匹配。
输入句子切分的短语越短,则由于缺少上下文,短语的歧义越多;同时,由于目标短语的数量越多,其排列出正确的译文的难度越大。此外,一些命名实体,例如人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词,因为其在语料库中出现的次数很少而很难用统计的方法翻译。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供训练基于短语的翻译模型的方法、训练基于短语的翻译模型的装置、基于短语的机器翻译方法和基于短语的机器翻译装置,以便能够通过使用命名实体知识,将命名实体的翻译从统计机器翻译中分离出来,来改善统计机器翻译的质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810190509.1/2.html,转载请声明来源钻瓜专利网。