[发明专利]一种用于提高机器翻译质量的装置和方法有效
申请号: | 201010599932.4 | 申请日: | 2010-12-22 |
公开(公告)号: | CN102541843B | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 陈本东 | 申请(专利权)人: | 陈本东 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 提高 机器翻译 质量 装置 方法 | ||
技术领域
本发明涉及机器翻译技术,尤其涉及一种用于提高机器翻译质量的装置和方法。
背景技术
随着因特网的发展,世界各国不同语言的人们在现实中和网上的交流也越来越多,越来越密切。随之而来产生了各种机器翻译工具。机器翻译通过用计算机实现不同语种之间的翻译。虽然机器翻译的质量在不断提高,但是,到现在为止,机器翻译仍然不能替代人工翻译,甚至会出现翻译的句子让使用者看不懂的情况。
现有的机器翻译质量检查方法主要是用于进行机器翻译质量的评测,例如是,通过对比机器翻译的输出和人工翻译的输出,最终计算出一个数字值,用这个数字值来评价机器翻译的质量。这种机器翻译质量评测的流程为基于机器翻译系统的输出译文与预先指定的参考译文之间的字符串匹配,也就是在参考译文中查找在输出译文中出现的字符串。对于匹配到的字符串的处理方式有很多种,基于N-gram(N元语法)共现的方法是目前机器翻译自动评测技术中的主要方法,如BLEU(Bilingual Evaluation Understudy)和NIST(US National Institute of Standards and Technology)。该方法需要多个翻译人员独立的将同样的源语言文本信息翻译成目标语言文本信息,而且,为了评价更合理准确,一般需要对相当长度的源语言文本信息进行评价,给出综合的评价结果。这种方法适于机器翻译的评测和比赛,但是对普通用户来说,以数字值表示的机器翻译质量的评价结果或许不能让他直观地理解。比如,一个日本人使用机器翻译工具时,他想将日文源语言文本信息翻译成中文文本信息,机器翻译的评测系统告诉他翻译结果的BLEU值是0.3,但是他仍然无法判断整体的翻译质量,也不清楚究竟是哪段文本信息翻译的质量差。
而且,这种评测由于依赖于人工翻译员的翻译结果,成本比较高。而且,这种评测是针对给定的源语言信息的,不能够对用户实时输入的源语言信息的翻译质量进行评测。
另外,在现有的机器翻译系统中,即使用户知道了翻译的目标语言结果不好,一般也没有办法去有效改进机器翻译输出的目标语言结果。
发明内容
为了解决现有技术中机器翻译效果不理想的问题,本发明在一个方面提供一种用于提高机器翻译质量的装置,该装置包括:源语言输入模块,用于让用户输入要翻译的源语言,并显示用户输入的源语言;机器翻译模块,用于将用户在源语言输入模块中输入的源语言翻译成目标语言;机器翻译结果呈现模块,用于呈现经过机器翻译模块翻译后的目标语言;机器翻译结果检查模块,用于把经过机器翻译模块翻译后的目标语言,翻译成与源语言语种相同的对比语言;机器翻译结果检查显示模块,显示机器翻译结果检查模块翻译后的与源语言语种相同的对比语言。
在前述的提高机器翻译质量的装置中,还包括源语言编辑模块,用于提供与所述要翻译的源语言相关的信息,使得用户可以选择并更改其中的一些与源语言相关的信息,供机器翻译模块参考来进行翻译。
在前述的提高机器翻译质量的装置中,其进一步包括源语言反馈信息呈现模块,用于呈现机器翻译模块翻译时所使用的与要翻译的源语言相关的信息。
在前述的提高机器翻译质量的装置中,其中所述的与所述要翻译的源语言相关的信息是通过可以选择的选项的方式提供的。可替换的是其中所述的与所述要翻译的源语言相关的信息是通过结构树的形式体现的,该结构树可以通过拖拉、点击的方式进行变化。
本发明提高机器翻译质量的装置中,其中所述的与要翻译的源语言相关的信息包括源语言的分词信息、词法信息和语法信息中的至少一种。
在上述的提高机器翻译质量的装置中,其中所述的分词是通过用符号的方式将源语言分成多个语言信息单位。
在前述的提高机器翻译质量的装置中,其中所述的符号有逗号,空格,斜划线。
在上述的提高机器翻译质量的装置中,其中所述的源语言输入模块、机器翻译结果呈现模块和机器翻译结果检查显示模块是Html或者Java网页上的输入区域或者显示区域,或者是计算机或单片机中的应用软件产生的输入区域或者显示区域。
在前述的提高机器翻译质量的装置中,其中所述的机器翻译模块通过以下的至少一种方式对所述要翻译的源语言进行处理:对源语言信息的分词,将源语言信息分成多个语言信息单位;对源语言信息的词性分析,将源语言信息的多个语言信息单位的词性进行分析;以及对源语言信息的语法分析,将源语言信息的多个语言信息单位之间的语法进行分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈本东,未经陈本东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010599932.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据访问方法及系统
- 下一篇:组合镜筒及其应用的变焦镜头