[发明专利]预处理文本的方法以及用于执行该方法的预处理系统在审
申请号: | 201680001271.6 | 申请日: | 2016-06-21 |
公开(公告)号: | CN107148624A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 文炼国;李东炫;蔡承勋;尹熙花 | 申请(专利权)人: | 电子部品研究院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京三友知识产权代理有限公司11127 | 代理人: | 李辉,刘久亮 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预处理 文本 方法 以及 用于 执行 系统 | ||
技术领域
本发明涉及文本翻译技术,并且更具体地,涉及一种能够通过用标准语言替换包含在翻译目标文本中的术语的预处理来提高机械翻译的准确性的预处理文本的方法以及用于执行该方法的预处理系统。
背景技术
单词“Webtoon(网络漫画)”是Web和Cartoon的合成词,并且通常指示网络漫画平台。Webtoon与移动设备技术组合以呈现全球流行的媒体内容。由于网络漫画的普及,网络漫画已经被翻译成各种语言。
如今,网络漫画翻译仍然处在人们直接阅读并翻译网络漫画的水平。网络漫画在没有系统翻译过程的情况下主要通过个人能力来翻译,并且因此考虑到文化差异而在翻译的准确性方面或者在表述方面存在问题。
另外,当常规机械翻译工具(engine)翻译除了标准语言以外的语言(诸如新词、英文字母破坏语言、语言的口语化形式、拟声词、拟态词和方言)时,其翻译准确性极大地退化,并且对在每个工具的DB内构建的翻译方法和术语具有很大影响。
韩国专利No.10-1099177涉及一种用于训练机械翻译机器的方法和系统,并且在韩国专利No.10-1099177中,公开了使用由其它机械翻译机器生成的文本输入来执行训练的机械翻译机器。提供了由用户或者另一源翻译成第一语言的文本输入,然后由第一机械翻译机器翻译这样的文本输入,并且生成文本输入的被翻译成第二语言的版本。文本输入和翻译的版本被解析并且经过训练架构,并且因此开发了转移映射和双语词典。此后,当由第二机械翻译机器翻译其它文本输入时,使用这样的组件。
韩国专利No.10-0961717涉及一种用于使用平行语料库来检测机械翻译错误的方法和设备,所述方法和设备可以使用对象语言句子(即,当使用平行语料库自动检测并跟踪基于规则的机械翻译系统的错误时的平行语料库的回答句)来调整在机械翻译中发现的错误,对错误类型进行分类,并且向错误信息提供预定频率或者更多的错误并因此独创性地减少了用于检测机械翻译错误所消耗的时间和精力,并且使得系统工程师能够通过检测且跟踪的错误信息容易地增强机械翻译系统的性能,因此使机械翻译系统的性能改进效率最大化。
[现有技术文献]
[专利文献]
韩国专利No.10-1099177(2011年12月20日)
韩国专利No.10-0961717(2010年5月28日)
发明内容
已经考虑到上述问题而完成本发明,并且本发明提供了一种执行利用标准语言替换翻译目标文本中包括的术语的预处理的文本预处理方法以及执行该文本预处理方法的预处理系统。
本发明还提供了一种预处理文本的方法以及执行该方法的预处理系统,它们能够通过在机械翻译之前执行翻译目标文本的预处理来提高翻译准确性。
本发明还提供了一种预处理文本的方法以及执行该方法的预处理系统,它们能够提高包括除了标准语言以外的语言(诸如新词、英文字母破坏语言、语言的口语化形式、拟声词、拟态词和方言)在内的网络漫画文本的翻译准确性。
根据本发明的一方面,一种在将输入文本翻译成另一种语言的文本之前对所述输入文本进行预处理的文本预处理系统包括:替换术语数据库,所述替换术语数据库存储替换术语;以及处理器,所述处理器执行预处理工具,所述预处理工具对所述输入文本进行预处理并且输出与所述输入文本的语言相同的语言的文本,其中,所述预处理工具识别所述输入文本中的替换目标术语,并且输出所识别的替换目标术语被替换术语替换的文本。
所述预处理工具可以包括:语素分析单元,所述语素分析单元以语素为单位将所述输入文本进行分隔,并且确定经分隔的语素的语音部分;术语识别单元,所述术语识别单元识别经分隔的语素是否与替换目标术语对应;以及替换术语搜索单元,如果经分隔的语素与替换目标术语对应,则所述替换术语搜索单元基于术语是否对应在所述替换术语数据库中搜索与所述替换目标术语对应的替换术语。
所述预处理工具还可以包括文本生成器,所述文本生成器生成所述替换目标术语被找到的替换术语替换的文本。
所述预处理工具还可以包括构造分析单元,当基于术语是否对应在所述替换术语数据库中不存在对应的替换术语时,所述构造分析单元对所述输入文本的构造进行分析并且估计不存在所述替换术语的术语的含义,并且所述替换术语搜索单元可以基于构造分析结果来搜索与估计的含义对应的替换术语。
所述构造分析单元可以根据语法对经分隔的语素进行分析,生成构造树结构,并且估计不存在所述替换术语的术语的含义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子部品研究院,未经电子部品研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680001271.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发动机
- 下一篇:照明装置及其控制方法