[发明专利]源语言改写处理方法和设备及机器翻译系统无效
申请号: | 201110305010.2 | 申请日: | 2011-09-27 |
公开(公告)号: | CN103020040A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 张洁;葛乃晟;郑仲光;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 改写 处理 方法 设备 机器翻译 系统 | ||
技术领域
本发明总体上涉及自然语言处理领域,具体来说涉及一种可用于辅助机器翻译的源语言改写处理方法和设备,以及一种包括该设备的机器翻译系统。
背景技术
机器翻译是利用计算设备把一种自然语言(即,源语言)转换为另一种自然语言(即,目标语言)的过程,是自然语言处理(Natural Language Processing)的一个分支。机器翻译通常利用词典和训练语料来学习获得源语言和目标语言的词汇、语法及其对应特征。一般来说,在源语言和目标语言之间在词汇和语序等方面往往存在一些差异,使得对于存在此类差异的语句的翻译成为机器翻译过程中的难点,由此导致机器翻译的精度较低。如何更好地提高机器翻译的精度一直是迫切要解决的问题。改写是一种服务于提高机器翻译精度的方法,可以通过词典、源语言和目标语的对应关系、语料库等多种资源和手段将源语言改变为易于机器反应系统理解和处理的形式。
发明人发现,根据源语言自身的语法特点进行改写可以在不依赖外部资源支持的情况下,化繁为简,变难为易,将源语言改写为一种机器翻译系统易于理解和处理的形式,显著提高机器翻译系统的速度和精度。如果在机器翻译前预先对源语言的文字符号序列进行处理,将源语言语句中复杂的语句(多个谓词嵌套的复合句)拆分重构为简单的单谓词非嵌套子句的句子,使其成为易于翻译的文字符号序列,将能够大幅度地降低机器翻译的难度,提高翻译的精度和质量。基于这个认识,发明人做出了本发明。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种源语言改写处理方法和设备,其能够在进行传统的机器翻译之前对要翻译的源语言语句进行改写处理,将复杂的难翻译的语句转换为简单的易于翻译的语句,从而能够部分解决传统的机器翻译过程中存在的翻译精度低的问题。
本发明的另一个目的是提供包括上述源语言改写处理设备的机器翻译系统,以及相应的计算机可读存储介质和程序产品。
根据本发明的一个实施例,提供了一种源语言改写处理方法,该源语言改写处理方法包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。
根据本发明的另一个实施例,提供了一种源语言改写处理设备,该源语言改写处理设备包括:语法分析单元,被配置用于对源语言语句中的待处理语句进行语法分析,并根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;以及语句重构单元,被配置用于基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句,并用上述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。
根据本发明的又一个实施例,提供了一种机器翻译系统,该机器翻译系统包含上述的源语言改写处理设备。
通过将根据本发明实施例的上述处理方法和设备应用到传统的机器翻译过程中,能够实现以下益处:通过在传统的机器翻译之前对源语言的语句进行处理,将源语言语句中的包含子句嵌套结构的复杂语句转换成不包含子句嵌套结构的简单语句,使得处理后的源语言语句在后续进行的机器翻译过程中的翻译难度降低,从而能够提高机器翻译过程的翻译精度和翻译效率。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将变得更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是根据本发明实施例的源语言改写处理方法的流程图;
图2是根据本发明实施例的图1中的步骤S140的具体处理过程的流程图;
图3是示出根据本发明实施例的源语言改写处理方法的示例性处理流程的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110305010.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:窗口化显示RSS摘要的方法及装置
- 下一篇:一种公文标准化校验系统