[发明专利]机器翻译方法和机器翻译装置在审
申请号: | 201410104256.7 | 申请日: | 2014-03-20 |
公开(公告)号: | CN104933038A | 公开(公告)日: | 2015-09-23 |
发明(设计)人: | 张大鲲;苏韬;郝杰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 刘瑞东;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 装置 | ||
技术领域
本发明涉及自然语言的处理技术,具体而言,涉及机器翻译方法和机器翻译装置。
背景技术
统计机器翻译系统的一般流程是,先确定模型(算法),然后基于训练数据来训练模型参数(翻译知识),最后利用训练得到的模型参数对输入的句子进行翻译。
训练数据通常由大规模对齐的双语句子对组成,这些句子对可能来自不同的领域,句子的形式也不相同,即使源语言相同的一个句子也可能有不同的目标语言翻译。同样,源语言句子中的同一个词,也根据上下文的不同而可能有不同的翻译。
在通常的翻译系统中,一旦完成训练过程,生成的翻译模型就不再改变。之后,使用生成的翻译模型对待翻译的句子进行翻译。然而,由于待翻译的句子的多样性,这种生成后即不再变化的翻译系统通常不能适用所有的待翻译的句子,因此会导致翻译质量不高。
对此,提出了一些领域适应的方法,用于构造“动态”的翻译系统。一些方法首先对领域内的数据和领域外的数据进行插值,然后利用插值后的数据构建翻译模型。另外一些方法首先按照领域对训练数据进行聚类,然后利用聚类的子集来训练单独的翻译子模型,在翻译时根据待翻译的句子所属的领域,选择与其领域对应的翻译子模型进行翻译。
发明内容
本发明的发明人在对上述领域适应的方法进行研究后发现,尽管这些方法具有一定的适应能力,但是,一旦通过训练生成翻译模型或翻译子模型后就不再改变,即训练后生成的翻译模型仍然是“静态”的,因此翻译系统的适应能力有限,仍然会导致翻译质量不高。
为了解决现有技术中存在的上述问题,本发明的实施方式提供了能够改善翻译质量的动态的机器翻译方法和机器翻译装置。具体地,提供了以下技术方案。
[1]一种机器翻译方法,包括以下步骤:输入待翻译的句子;计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;利用上述训练语料,训练翻译系统;以及利用上述翻译系统,对上述待翻译的句子进行翻译。
本实施方式的机器翻译方法,通过在双语语料库中将与待翻译的句子的相似度高的语料选出,并基于选出的语料实时构造翻译系统,能够构造动态的、具有针对性的翻译系统,从而能够改善翻译质量。
[2]根据上述[1]的机器翻译方法,上述选择步骤包括以下步骤:对上述双语语料库中的句子对以上述相似度从大到小的顺序进行排序;以及选择排序后的前N个句子对,作为上述训练语料,N为1以上的整数。
本实施方式的机器翻译方法,通过选择排序后的前N个句子,在双语语料库中存在大量与待翻译的句子的相似度高的语料时,能够利用最相似的、一定数量的语料训练翻译系统,从而不仅能够保证翻译质量,而且能够减轻训练翻译系统的处理负担。
[3]根据上述[1]或[2]的机器翻译方法,上述选择步骤包括以下步骤:选择上述双语语料库中的上述相似度大于预定的阈值的句子对,作为上述训练语料。
本实施方式的机器翻译方法,通过选择相似度大于预定的阈值的语料来训练翻译系统,能够将相似度低的语料排除,从而能够避免相似度低的语料对翻译系统的干扰,能够进一步保证翻译准确度。
[4]根据上述[1]~[3]之一的机器翻译方法,上述计算相似度的步骤包括以下步骤:利用上述待翻译的句子与上述双语语料库中的源语言句子之间的编辑距离计算上述相似度。
[5]根据上述[1]~[4]之一的机器翻译方法,上述计算相似度的步骤包括以下步骤:计算上述待翻译的句子与上述双语语料库中的源语言句子之间的句法结构的相似度。
[6]根据上述[1]~[5]之一的机器翻译方法,在上述翻译步骤之后还包括以下步骤:在翻译缓冲区保存上述待翻译的句子及其翻译结果。
[7]根据上述[6]的机器翻译方法,在上述输入步骤之后还包括以下步骤:在上述翻译缓冲区查找上述待翻译的句子。
本实施方式的机器翻译方法,通过在翻译缓冲区中保存待翻译的句子及其翻译结果,在下次翻译相同的句子时,能够直接从翻译缓冲区取得该句子的翻译结果,节约了计算资源,提高了翻译效率。
[8]根据上述[1]~[7]之一的机器翻译方法,在上述翻译步骤之后还包括以下步骤:将上述待翻译的句子和其翻译结果加入上述双语语料库。
本实施方式的机器翻译方法,通过将待翻译的句子和其翻译结果加入双语语料库,能够扩充双语语料库的语料数据,从而能够提高后续翻译的翻译质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410104256.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件合并方法及装置
- 下一篇:关系模型的确定方法及装置