[发明专利]计算机辅助自然语言翻译无效
申请号: | 200910253192.6 | 申请日: | 2009-12-14 |
公开(公告)号: | CN101826072A | 公开(公告)日: | 2010-09-08 |
发明(设计)人: | 基思·米尔斯;奥利弗·克里斯特;埃里克·德弗里泽;刘兴曾 | 申请(专利权)人: | SDL有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机辅助 自然语言 翻译 | ||
技术领域
本发明涉及自然语言翻译,尤其涉及用在将源自然语言的源语料翻译成目标自然语言的自然语言翻译中的计算机实现的方法和装置。
背景技术
为了在当前机器辅助翻译项目中利用具有高翻译质量的先前已翻译的文本,翻译记忆库在自然语言翻译行业中已经使用了几十年。通常,翻译记忆库在句子级或段落(paragraph)级对现有翻译施加影响(leverage)。由于在翻译记忆库中句子或段落的粒度(granularity)较大,所以整个句子或段落与源文本匹配的机率是比较低的,因此可重用的量是有限的。
改善对先前翻译的影响的一种方法是通过使用根据一时间段内的先前翻译而建立的术语库或多语词典。这种术语库的开发和维护需要很多努力并且通常需要熟练的术语员来输入。提取技术领域中近期的进展可以减少从现有单语资源或双语资源中自动提取术语候选时所需的人工输入量。但是,创建和维护这样的术语库所需的人力仍然是相当大的。
多种源代码文本编辑器包括以下特征:在用户完全不必实际键入单词或短语的情况下预测用户想要键入的单词或短语。例如,一些诸如Microsoft WordTM的文字处理软件使用内部启发来建议潜在完成以单自然语言已键入的前缀。
美国专利申请No.2006/0256139描述了一种带有用于单词和短语自动完成的简化计算机键盘的预测文本个人计算机。该个人计算机还提供机器翻译能力,但不能重用先前已翻译的文本。
因此,有必要提高在机器辅助翻译项目中先前已翻译文本的重用量,同时减少所需的人工输入量。
发明内容
根据本发明的第一方面,提供了一种用于将源自然语言的源语料翻译成目标自然语言的计算机实现的方法,所述方法包括在软件进程中执行以下步骤:
接收步骤,其接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段(sub-segment)的第一部分;
识别步骤,其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段,所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对(text segment pairs)的语料库中被提取出来,各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段;以及
输出步骤,其输出所述至少一个可选择的目标文本子段。
优选地以适于供翻译系统操作者审阅的形式来输出所述识别出的目标文本子段,由此可以选择所述至少一个识别出的目标子段用于将所述源语料翻译成所述目标自然语言。
因此,可以向翻译者建议目标语言的许多子段用在源语料的已翻译的版本中。本发明允许以比诸如句子和段落之类的文本段更低的粒度级来重用高质量的先前已翻译的文本。单词和/或短语的其大小比提取这些单词和/或短语的句子和/或段落的那些段更小的先前已翻译的子段更可能匹配源语料的文本。这意味着重用的机率大大增加,这进而使得翻译系统操作者一方更省力。
在本发明的一个设置中,该方法进一步包括以下步骤;接收第二数据输入,所述第二数据输入包括从所述至少一个输出的目标子段中选择的用于将所述源语料翻译成所述目标自然语言的一个目标文本子段。结果,翻译系统操作者通过经由用户接口从输出的目标子段中选择一个目标子段而能够省时和省力,该目标子段是源语料的当前正在翻译的部分的最接近或最合适的翻译,并且该选择可以被插入该源语料的翻译中。
在本发明的一个实施方式中,从所述语料库中提取目标文本子段包括计算在所述先前已翻译的文本段对中的所述源文本段中的单词与所述对应的已翻译的文本段中的单词之间的同现测度。因此,可以基于一个或更多个算法来分析诸如翻译记忆库之类的现有双语语料库以提取用于向翻译者建议的目标子段。通过对同现进行计算,可以做出关于所建议的子段的关联性的假定,从而有助于减少向翻译者建议的貌似不相关的或“干扰”子段的量。
在本发明的设置中,输出多个可选择的目标文本子段。在本发明的其他设置中,以适于由翻译系统操作者审阅的形式输出的识别出的目标文本子段的数量由预定阈值限定。因此,翻译系统操作者不必花费很多时间来浏览相当多数量的识别出的子段来选择目标语言的合适子段。该预定阈值可以是默认值,也可以是用户可配置的,使得用户可以指定在不会受到不当妨碍的情况下可轻松地浏览的待输出目标子段的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SDL有限公司,未经SDL有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910253192.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:天线装置及其所使用的天线元件
- 下一篇:雷达设备