[发明专利]一种用于翻译的术语发现方法及其系统在审
申请号: | 201810802909.7 | 申请日: | 2018-07-23 |
公开(公告)号: | CN108959276A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 李靖 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 术语库 替换 发现 处理系统 翻译结果 输出模块 阵列模块 语料 匹配 平行 输出 | ||
本发明涉及一种用于翻译的术语发现方法及其系统。利用该方法,可以提前识别出哪些可能被翻译错误的术语,并在翻译前对待译语料进行相应的处理,在翻译后在进行匹配替换,从而输出正确的翻译结果。在翻译过程中,可以发现相应的术语库中术语在平行语料中的对应链指关系,通过这种链指关系的发现,可以将术语库中的术语进行对应的替换,这样可以提高翻译的准确性。在本发明的另一个方面,提供了一种基于AC自动机的术语处理系统,该系统主要包括术语库模块、AC自动机、翻译阵列模块以及输入、输出模块。
技术领域
本发明属于模式识别技术领域,尤其涉及一种用于翻译的术语发现方法及其系统。
背景技术
现阶段翻译技术可以分为三种:人工翻译、计算机辅助翻译以及机器翻译。
人工翻译准确度较高,但是速度较慢,并且准确度取决于译员自身的能力水平;面对大规模语料翻译时,更多的是采用计算机辅助翻译以及机器翻译方法。
然而,大部分机器翻译的结果并不能直接拿来使用,因为通常会存在明显的错翻以及语法错误;并且,不同的翻译引擎对于同一个术语的翻译结果通常不一致;此外,某些术语在特定的上下文环境中具备特定的含义,而翻译引擎通常只会给出其最常见的结果,该初步翻译结果明显不符合特定的上下文环境。因此,计算机辅助翻译以及机器翻译的结果还需要人工二次检查并校正。
然而,在现有技术中,人工检查缺乏针对性并且是盲目的,其至少需要概览所有的初步翻译结果,一一阅读上下文标记处所有可能的错误部分,然后对其进行校正,该过程极其耗费时间精力,并且容易出现错漏。
另一方面,初步翻译结果虽然存在错误,但是根据实际经验,其错误的部分只在某些特定语境中出现,大部分翻译结果的语义都是准确的,因此,实际检查也没有必要一一检查所有的文本。
尽管如此,现有技术对于初步翻译结果的检查校对并不能实现自动化的查找和替换,从而导致效率低下。
发明内容
为解决现有技术在翻译过程中存在术语翻译错误并且不能实现高效率查找校对的问题,本发明提出了一种用于翻译的术语发现方法。利用该方法,可以提前识别出哪些可能被翻译错误的术语,并在翻译前对待译语料进行相应的处理,在翻译后在进行匹配替换,从而输出正确的翻译结果。
在本发明的第一个方面,一种用于翻译的术语发现方法,其包括如下步骤:
(1)建立待译语料的特殊术语库。
所述特殊术语库可以是根据本次待翻译语料的属性,例如领域、关键词、摘要等因素,建立一个包含“术语-翻译结果(目标术语)”的语料库。这里的术语,可以相对常见术语较特殊的术语,也可以是本来该术语含义普通,但是由于本次待译语料描述的语境特殊而具备特殊含义。
所述术语库可以是包含多语种术语的术语库,其每一个“术语-翻译结果”包含相应的限定条件,例如,上下文语境、词性等;只有满足相应的限定条件时,该“术语-翻译结果”才发挥作用。
(2)将所述特殊术语库加载进AC自动机,所述AC自动机根据所述特殊术语库,查找输入的待译语料中满足限定条件的特殊术语;
(3)将待译语料中所述满足限定条件的特殊术语替换成不能被翻译引擎识别的特殊标记;
(4)将待译语料输入翻译引擎得出初步翻译结果;
(5)根据所述初步翻译结果,AC自动机基于所述特殊术语库,将初步翻译结果中的所述特殊标记替换为目标术语,从而输出处理后的翻译结果。
其中,所述翻译引擎包含多个翻译组件;所述翻译引擎选择所述多个翻译组件之一对所述待译语料进行翻译,并返回结果;当所述被选择的翻译组件返回不及时或无法响应时,所述翻译引擎自动切换为其他翻译组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810802909.7/2.html,转载请声明来源钻瓜专利网。