[发明专利]基于相似度的智能离线翻译机有效
申请号: | 201810064998.X | 申请日: | 2018-01-23 |
公开(公告)号: | CN108153743B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 张斌;张锋 | 申请(专利权)人: | 甲骨易(北京)语言科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30 |
代理公司: | 上海尚象专利代理有限公司 31335 | 代理人: | 徐炫 |
地址: | 100032 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似 智能 离线 翻译机 | ||
本发明的提供一种基于相似度的智能离线翻译机,特别是汉语到英语的基于相似度的智能离线翻译机,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。
技术领域
本发明属于自动翻译领域,具体涉及一种基于相似度的智能离线翻译机。
背景技术
随着智能设备的发展,智能操作系统也越来越多样化,比如苹果公司的IOS,谷歌公司的Android,火狐公司的Firefox OS等等,而集成了这些系统的智能设备也开始被越来越多的用户使用,用户使用这些设备进行游戏,社交,阅读等等日常活动。
而随着社会的愈来愈开放,人们现在也有着更多的机会阅读到不属于自己母语的内容,不论是平时爱好阅读,或者是因专业学习,工作需求等,常常会碰到很多外语资料,目前智能设备上存在最普遍的查询外语词汇的方法是由用户手动打开外语查询应用,手动输入单词查询,稍微做的好一些应用比如有道词典。目前流行的自动翻译方法主要有三类,第一类是基于词的,以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识,翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,组合成目标语言句子,特点是翻译虚度快,但准确度较差,第二类是基于短语的翻译,翻译粒度从单词扩展到短语,较好解决局部上下文依赖问题,大大提高翻译的流利度和准确率,第三类是基于句法的翻译,将句法结构信息引入翻译过程,但需要将语法结构知识引入,且需要在翻译之前利用句法知识调整源语言语序,在翻译之后利用句法知识做重排序。
目前来说,现有的机器自动翻译中,第三类翻译是趋势,然而要想获得较好的翻译效果,最好是通过在线联网的方式获得语法结构,另外,该翻译速度也较慢。尽管互联网已得到了极大的普遍应用,然而,随着环境的变化,以及各种临时条件的出现,我们的智能设备也不能时时刻刻保持在线状态,因此,急需一种基于相似度的智能离线翻译机,在尽可能实现脱离网络的情况下,也能得到较为准确的翻译结果。
发明内容
鉴于以上分析,本发明的主要目的在于提供一种克服上述缺陷的基于相似度的智能离线翻译机,特别是汉语到英语的基于相似度的智能离线翻译机,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则技能得到较为准确的翻译结果。
本发明的目的是通过以下技术方案实现的。
一种基于相似度的智能离线翻译机,其特征在于,包括:
汉语输入模块,用于接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
相近度计算模块,用于把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;
对齐模块,用于根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;
翻译模块,用于根据设定的英语翻译规则,翻译成符合要求的英文。
进一步地,所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨易(北京)语言科技股份有限公司,未经甲骨易(北京)语言科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810064998.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医学英语翻译装置
- 下一篇:一种数据存储维护方法及装置