[发明专利]语用机器翻译方法在审
申请号: | 201310624188.2 | 申请日: | 2013-11-30 |
公开(公告)号: | CN104679735A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 赵会军 | 申请(专利权)人: | 赵会军 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 无 | 代理人: | 无 |
地址: | 050051 河北省石家庄市新华区*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 | ||
技术领域
本发明涉及机器翻译技术,是语用翻译方法在机器翻译中的具体应用。可用于移动终端APP自动翻译、电脑终端自动翻译、新闻和资料的自动翻译处理系统、国际电子商务自动语言转换、旅游服务、教学科研、智能机器人、语音翻译系统后台处理等方面。
背景技术
机器翻译就是应用计算机将一种语言自动翻译成另一种语言的复杂合成系统。目前几乎所有最先进的机器翻译系统都是基于统计的机器翻译系统,通过对大量实例的双语语料库对齐概率统计,运用各种不同的算法降低误差率,以期得到满意的翻译结果。
统计机器翻译历经十余年的发展并没有突破性的进展,某种算法的推出对翻译质量尽管也有一定的积极意义,但很多情况下都是有限的、局部的、不完全的测试结果。
很多专家认为,语言学模型的引导是机器翻译所不可或缺的,有些统计机器翻译系统试图开始加入语法规则来改善翻译质量,但往往是一种规则的运用会对另外一种规则产生负面影响,综合效用并不理想。
运用语义方法进行机器翻译的研究虽然取得了一定进展,但依然无法很好地融合在应用中。
目前,基于统计机器翻译的词语对齐的准确率比较高,相对于翻译结果的个别词语不准确的现象,混乱的词语排列顺序一直是统计机器翻译所要亟需解决的难题。
发明内容
语用机器翻译方法集成了统计机器翻译的最前沿技术和语用学翻译理念,从词语、句法、语法和篇章层面上进行深层语言学分析和结构逻辑处理,可以有效解决机器翻译中目标语结果的顺序混乱问题。语用的方法按照语言的线性结构来切分语言结构,遵循语用学的只要是现实当中使用的语言就是正确的这个原则来行事。
本发明的具体翻译方法如下:
1、信息接收窗口接收源语言信息。将源语言信息导入源语言预处理模块。
2、源语言预处理模块对源语言进行格式预处理,使之符合规范的源语言格式。将处理后的标准格式源语言导入翻译引导模块。
3、 翻译引导模块将源语言初步切分成句子。先引入标点符号库和语言特殊标记库,以符合自然语用规则的句号、问号、感叹号、分号、空行等作为切分依据。将源语言初步切分成为单句,顺序导入翻译主模块。
4、 翻译主模块对句子进行翻译处理。
(1) 首先,主模块调入各种子模块,如语言切分程序包、词性标记程序包、基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库。然后导入字符串标记处理模块。
(2) 字符串标记处理模块对字符串进行初步分析,确定原句的时间、地点、人物等事件信息,并标注。将标注信息传递给句子切分模块。
(3) 句子切分模块根据句子的关联信息对单句进行再切分。切分方法有两个核心点。一个是按照原文的线性排列进行切分,完全不同于目前流行的乔姆斯基的NP/VP语言结构树划分的方式;再就是通过设置多个语言子库,与原文进行交叉定位并提取关联信息,以此为依据对原文进行切分。切分的依据是动态变化的,可以适应千变万化的语言结构。一个句子中的切分依据在另一个句子中可能就不是切分依据。最后将句子切分成几个子句。然后导入排序模块。
(4) 排序模块对子句进行重新排序。根据切分依据的不同对子句进行重排序。将排序结果导入到翻译对齐模块。
(5) 翻译对齐模块将重排序结果进行目标语对齐。根据子句的不同类型从基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库调用不同的对齐词语。然后导入目标语规范模块。
5、 目标语规范模块预先调入目标语使用规则库,根据目标语的表达规范将对齐的结果进行规范化处理,最后得到符合目标语言表达习惯的翻译结果。然后导入结果输出窗口。
6、 结果输出窗口将结果输出到应用终端。
上述所说语用和语用翻译的概念指的是:语用研究所侧重的对语言表达的所处环境及产生话语的原因和结果的分析,语用学的各个领域包括如指示语、预设、语言礼貌、会话含意、关联理论、话语连贯、言语行为理论、会话分析、认知语用、顺应论等。语用翻译侧重于通过语用的方法分析源语言并对源语言进行精确理解,进而将源语言所要表达的意义完整准确地转换成符合目的语的表达习惯的规范的目的语。
上述(4)中的排序模块通过分析源语言句子的每个细小单元之间的关联关系将句子重新组合成目标语言的关联关系,并且这种关联关系是可以计算的。关联关系根据源语言细小单元之间的时间、空间、人物、事件以及相互之间的逻辑关系进行判断,每个细小单元的重新组合根据目标语的时间、空间、人物、事件以及相互之间的逻辑关系进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赵会军;,未经赵会军;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310624188.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种获取实例占用内存的方法及装置
- 下一篇:计算机系统