[发明专利]机器翻译方法和机器翻译装置在审
申请号: | 201410104256.7 | 申请日: | 2014-03-20 |
公开(公告)号: | CN104933038A | 公开(公告)日: | 2015-09-23 |
发明(设计)人: | 张大鲲;苏韬;郝杰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 刘瑞东;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 方法 装置 | ||
1.一种机器翻译装置,包括:
输入单元,其输入待翻译的句子;
计算单元,其计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;
选择单元,其基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;
训练单元,其利用上述训练语料,训练翻译系统;以及
翻译单元,其利用上述翻译系统,对上述待翻译的句子进行翻译。
2.根据权利要求1所述的机器翻译装置,其中,上述选择单元包括:
排序单元,其对上述双语语料库中的句子对以上述相似度从大到小的顺序进行排序;
上述选择单元,选择排序后的前N个句子对,作为上述训练语料,N为1以上的整数。
3.根据权利要求1所述的机器翻译装置,其中,上述选择单元,选择上述双语语料库中的上述相似度大于预定的阈值的句子对,作为上述训练语料。
4.根据权利要求1所述的机器翻译装置,其中,上述计算单元,利用上述待翻译的句子与上述双语语料库中的源语言句子之间的编辑距离计算上述相似度。
5.根据权利要求1所述的机器翻译装置,其中,上述计算单元,计算上述待翻译的句子与上述双语语料库中的源语言句子之间的句法结构的相似度。
6.根据权利要求1所述的机器翻译装置,还包括:
保存单元,其在翻译缓冲区保存上述待翻译的句子及其翻译结果;以及
查找单元,其在上述输入单元输入上述待翻译的句子之后在上述翻译缓冲区查找上述待翻译的句子。
7.根据权利要求1所述的机器翻译装置,还包括:
将上述待翻译的句子和其翻译结果加入上述双语语料库的句对添加单元;或者
对上述待翻译的句子和其翻译结果进行词对齐的词对齐单元和将词对齐结果加入上述双语语料库的词对齐结果添加单元。
8.根据权利要求1所述的机器翻译装置,还包括:
训练数据添加单元,其在上述双语语料库中添加与用户相关的训练数据。
9.根据权利要求1所述的机器翻译装置,还包括:
置信度计算单元,其利用上述相似度计算上述翻译结果的置信度。
10.一种机器翻译方法,包括以下步骤:
输入待翻译的句子;
计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;
基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;
利用上述训练语料,训练翻译系统;以及
利用上述翻译系统,对上述待翻译的句子进行翻译。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410104256.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件合并方法及装置
- 下一篇:关系模型的确定方法及装置