[发明专利]机器翻译方法及装置有效
申请号: | 201410026026.3 | 申请日: | 2014-01-20 |
公开(公告)号: | CN104794110B | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 贲国生 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 罗振安 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 装置 | ||
本发明公开了一种机器翻译方法及装置,属于文本处理技术领域。包括:获取当前文本中待翻译的第一源语言词汇,并确定第一源语言词汇对应的至少一个待选目标语言词汇;根据语料库确定每个待选目标语言词汇与当前文本中已翻译的每个第二源语言词汇对应的目标语言词汇间的第一逐点互信息,并根据语料库确定每个待选目标语言词汇与第二源语言词汇间的第二逐点互信息;根据每个待选目标语言词汇对应的第一逐点互信息和第二逐点互信息确定第一源语言词汇的翻译结果。本发明通过同时采用目标语言端间的逐点互信息及源语言端到目标语言端间的逐点互信息来对待翻译的源语言词汇进行翻译,因此,将源语言翻译成目标语言时翻译的质量较高。
技术领域
本发明涉及文本处理技术领域,特别涉及一种机器翻译方法及装置。
背景技术
随着现在科学技术的发展和各国情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,由于传统人工翻译的作业方式已经远远不能满足需求,而机器翻译作为一种利用计算机将一种自然语言转变为另一种自然语言的翻译方式,由于能够借助计算机的处理速度优势快速地进行翻译,并同时能结合整篇文档的上下文语境更好地进行翻译,因此,逐渐成为翻译方式的主流。
相关技术中提供了两种机器翻译方法:第一种机器翻译方法中,获取当前文本中待翻译的第一源语言词汇,并确定第一源语言词汇对应的至少一个待选目标语言词汇,根据语料库确定每个待选目标语言词汇与当前文本中已翻译的每个第二源语言词汇对应的目标语言词汇间的逐点互信息,根据每个待选目标语言词汇对应的逐点互信息确定第一源语言词汇的翻译结果。其中,词汇衔接主要分为重复和搭配,重复是指文本中词汇项的重复,搭配主要涉及到相同、相似或相关的语义关系的词汇项,如上位关系的搭配、下位关系的搭配、相同关系的搭配、相近关系的搭配、相反关系的搭配、互补关系的搭配等。
第二种机器翻译方法中,获取当前文本中待翻译的第一源语言词汇,并确定第一源语言词汇对应的至少一个待选目标语言词汇,根据语料库确定每个待选目标语言词汇与第二源语言词汇间的逐点互信息,根据每个待选目标语言词汇对应的逐点互信息确定第一源语言词汇的翻译结果。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于目标语言端间的逐点互信息及源语言端到目标语言端间的逐点互信息在进行机器翻译时都有一定的参考价值,且两种逐点互信息中的任意一种都能提高翻译的质量,而相关技术中两种机器翻译方法均只利用了其中一种逐点互信息,从而导致将源语言翻译成目标语言时翻译的质量不高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种机器翻译方法及装置。所述技术方案如下:
一方面,提供了一种机器翻译方法,所述方法包括:
获取当前文本中待翻译的第一源语言词汇,并确定所述第一源语言词汇对应的至少一个待选目标语言词汇;
根据语料库确定每个待选目标语言词汇与当前文本中已翻译的每个第二源语言词汇对应的目标语言词汇间的第一逐点互信息,并根据所述语料库确定每个待选目标语言词汇与所述第二源语言词汇间的第二逐点互信息;
根据每个待选目标语言词汇对应的第一逐点互信息和第二逐点互信息确定所述第一源语言词汇的翻译结果。
另一方面,提供了一种机器翻译装置,所述装置包括:
获取模块,用于获取当前文本中待翻译的第一源语言词汇;
第一确定模块,用于确定所述第一源语言词汇对应的至少一个待选目标语言词汇;
第二确定模块,用于根据语料库确定每个待选目标语言词汇与当前文本中已翻译的每个第二源语言词汇对应的目标语言词汇间的第一逐点互信息;
第三确定模块,用于根据所述语料库确定每个待选目标语言词汇与所述第二源语言词汇间的第二逐点互信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410026026.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:时间序列处理方法及装置
- 下一篇:手写笔迹的编辑方法