[发明专利]机器翻译中的语法自纠正方法无效

专利信息
申请号: 94115919.1 申请日: 1994-09-15
公开(公告)号: CN1094618C 公开(公告)日: 2002-11-20
发明(设计)人: 窦祖烈 申请(专利权)人: CITAC计算机股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海专利商标事务所 代理人: 孙敬国
地址: 美国佛*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 机器翻译 中的 语法 纠正 方法
【说明书】:

本发明总的来说涉及改进用机器进行翻译的语法的方法。

不同的语言遵循不同的语法规则。所以,如果翻译人员不遵循被译成语言的所有语法规则的话,需要翻译的语言(即被译语言)的良好语法结构在被翻译成被译成的语言以后,就会变得文理不通。

因此,为了确保最终译文语法正确,在进行机器翻译时,机器必须知道被译语言和被译成语言的语法规则。然而,语法规则如此之多,使得人们达到这样一个共识,即机器翻译总是在语法上不那么完善。

美国、日本、中华人民共和国、中国台湾、加拿大、新加坡以及香港的研究人员对把汉语译成英语以及其他被译成语言这一问题已经研究了近三十年。从而取得了四种翻译方法。

第一种方法是,一句中文句子中的每一个汉字在被译成语言中被译成这个汉字的对应词;从而正如众所周知的那样,其结果是谬误百出。    

第二种方法是产生洋泾浜英语,说英语的人能够理解这种支离破碎的语言,但在这种支离破碎的语言中却充满了蹩脚并且不常用的英文表述。这种翻译方法比起第一种方法要好得多,但这种方法仍然不能为人们所接受,因为这需要使用者用英语语法和句法修改译文,才能使译文完善。

第三种方法是简单地将优美的英文句子事先存储在一个存储器内,然后在识别具有相同意义的中文句子时再产生所述的存储在机器中的英文句子。这种装置可以用来把一个中文菜单中的词目转译成精炼的英语,将经常重复的汉语表达转译成精炼的英语,等等。这种装置对经常需要翻译的旅行者和学生比较实用,但是这种翻译机器总的来说还是不太实用,因为实际上每一语言含有大量的不同句子。

本发明人持有的美国专利号为5,224,040,标题为“中文句子的翻译方法”的专利文献以及本发明的公开的CITAC机器翻译机是第四种方法,采用这种方法的翻译机能够提供含义准确、非洋泾浜型译文以及优美、语法正确的句子。

在构思本发明的时候,从总体考虑现有技术的角度来看,如何制作改进的第四种类型的翻译机对本领域的普通技术人员来说是非显而易见的。

本发明开始时恰好是本发明人的前一发明结束时。更确切地说,上述专利在世界上第一次公开了一种将中文翻译成被译成语言的机器和方法。与把中文译成被译成语言的早期机器成鲜明的对比,所述早期机器和方法含有把试图将中文词语译成被译成语言的、现有技术的装置所产生的不成意思的词语删除掉的新部件和新方法。早期发明的核心在于一种从一串中文汉字中检测中文词语的极其新颖的方法;这种方法包括将汉字输入到一缓冲器、从而形成各种组合,直至检测出真正有意义的词语的步骤。这种机器和方法产生的最终译文在被译成语言中意义是明确的,不会有无意义的词,也不会是洋泾浜英文,但却会有语法错误,这是因为没有对译文进行最终语法校正的装置。

所以,本发明提供了一种把早期机器和方法产生的最终译文转变成语法正确的译文的新颖方法。

本发明的核心在于注意到在翻译阶段删除语法错误是极其困难并且不切实际的,还在于发明最好在翻译过程中已经产生有意义的句子以后再纠正语法错误。所以,CITAC机器的最终产物是本文所揭示的新颖语法纠正方法开始点。

本发明的另一个发明点在于发现可以对句子进行分析,并且发现句子含有语法标记及语法标记类型。例如,对代词要加上一种语法标记,因为当把代词从中文译成被译成语言时,可以产生许多种译文。在书面汉语中是不区分代词的格位的,一个发音为“Wǒ”的简单汉字,其意义可以是“我(主格)”、“我(宾格)”、“我的(所有格)”、“我的(物主代词)”;另一个发音为“Nǐ”的汉字,其意义可以是“你(主格)”、“你的(所有格)”或者“你的(物主代词)”;与此类似,单词“Tā”的意义可以是“他(主格)”、“他(宾格)”、“他的(所有格)”、“她(主格)”、“她(宾格)”或“他的(物主代词)”。这种语意的含混不清不容被机器区分,因为如上所述,被译书面语句并不区分上述代词的各种格位用法。

因此,当早期的机器产生带有英语代词(或者在其他区分代词格位的被译成语言中的代词)的句子时,本机器将代词与语法标记联系起来。换言之,因为最终句子中出现的英语代词表示由于在书面汉语原文句子中不会给出一个代词在最终译文中应该是什么格位,因而在最终的句子中出现的英语代词表示它可能导致语法错误,所以升起“红旗”。

类似地,汉语也不区分别名词的单数和复数。所以,“三本书”在汉语中的语法是完全正确的。因此,名词前的数字大于最终译文中的数字时,再次升起“红旗”,表示最终译文的语法可能不正确。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于CITAC计算机股份有限公司,未经CITAC计算机股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/94115919.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top