[发明专利]用于机器翻译的装置和方法无效
申请号: | 200810129581.3 | 申请日: | 2008-07-02 |
公开(公告)号: | CN101339547A | 公开(公告)日: | 2009-01-07 |
发明(设计)人: | 知野哲朗;釜谷聪史;降幡建太郎 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 钟胜光;王英 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 机器翻译 装置 方法 | ||
技术领域
本发明涉及一种用于对以源语言输入的语句进行机器翻译以获得目标语言语句的装置和方法。
背景技术
已经开发出机器翻译技术来将一种语言的表达自动翻译成不同语言中语义等价的表达,例如在日语和英语之间翻译。尤其是对于书面语广泛使用了机器翻译系统。可以将用于实现机器翻译的技术分成两大类,基于规则的翻译和基于语料库的翻译。
在基于规则的翻译中,针对每种语言的语法和词汇信息以及任两种在翻译中处理的语言之间的词汇和句子结构之间的对应关系描述规则,从而可以依据规则实现语言之间的转换。
开发基于规则的翻译中使用的规则和词典不仅要求对翻译的源语言和目标语言都具有高水平的认知,而且要对这些语言之间的语义和语法关系有高水平的认知。此外,因为语言有着无限的多样性,因此规则的开发需要大量的时间和基于穷尽性工作的高水平认知。而且,这种规则开发需要针对每一对源语言和目标语言进行。还有一个问题是,翻译的结果是自动化的且不自然的,这是因为变化无限多的语句都是基于有限数量的规则来翻译的。
作为克服基于规则的翻译中这种问题的解决方案,广泛采用了基于语料库的翻译。在基于语料库的翻译中,收集大量彼此语义等价的两种语言的表达对范例,参考所收集的范例进行语言转换。作为基于语料库的翻译,公知的有诸如翻译存储(TM)、基于范例的机器翻译(EBMT)和推测性机器翻译(SMT)等系统。
TM系统搜索与被输入的表达具有相同源语言表达的范例对,并输出表达的翻译。EBMT系统搜索包括类似于输入表达的源语言表达的范例对,并基于搜索到的范例的翻译获得语义上等价的目标语言表达。SMT系统基于来源于已可用的大量范例数据的统计信息获得以源语言输入的表达的翻译。
基于语料库的翻译的优势在于,翻译结果自然而可靠,而且开发相对容易,这使得多语言应用较为容易。在以下描述中,除非另作说明,将EBMT系统用作基于语料库的翻译的典型范例。
关于基于语料库的翻译,JP-A 2002-7392(特开)提出了一种技术,根据翻译方向设置源语言模式和目标语言模式,从而不必针对每种翻译语言创建模式。
应当指出,在表达单词时,可以不仅仅从表达(单词或一串字符的字面含义)来解释单词的含义,而是从表达和表达单词的环境之组合来解释其含义。
正是单词的这个方面提高了单词作为沟通工具的效率,一个单词随着环境变化而具有不同的含义。环境可以包括发言者和听者的立场、角色和关系,或时间、地点和周围物体以及已经确定的条件,此外还包括发言者和听者的知识和信仰、他们对彼此的了解和信任度、以及很多其他因素。
因此,可以将基于语料库的翻译中采用的范例中的语言的表达视为仅在为每个翻译对指定的有限环境下具有等价的含义。
然而在大多数情况下,基于语料库的翻译中的翻译范例对仅包括不同语言范例或“表达”的单词,并不包括做出这种表达的环境信息。
另一方面,因为基于语料库的翻译需要大量的翻译语料库,因此难以从语料库中排除在特定语境(环境)下使用的范例对或具有自由翻译的词组或固定词组(例如基于寓言的词组和成语)的范例对。
根据如JP-A 2002-7392(特开)所述的常规基于语料库的翻译技术,仅考虑词组的相似性来选择范例对,而不考虑使用单词的环境,这样有时会造成翻译的语句在语义上不等价。换言之,翻译结果可能不自然或不正确,可能无法实现被认为是基于语料库的翻译的优点的自然和高可靠性。
为了解决这个问题,可以考虑这样的方法:预先自动检测表达环境的一部分或向范例对附加环境的一部分。然而,很难以机械式的方式执行这些操作。可以人工地将环境的部分信息附加到范例对,但这不支持基于语料库的翻译在易于开发方面的优点。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810129581.3/2.html,转载请声明来源钻瓜专利网。