[发明专利]一种统计机器翻译中的在线翻译模型选择方法有效
申请号: | 200710099724.6 | 申请日: | 2007-05-29 |
公开(公告)号: | CN101079028A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 吕雅娟;刘群;黄瑾 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 高存秀 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统计 机器翻译 中的 在线翻译 模型 选择 方法 | ||
1、一种统计机器翻译中候选翻译模型生成方法,包括以下步骤:
步骤101)、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
步骤102)、根据所述子语料库,训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
步骤103)、为所述子语料库建立索引,得到语料库索引文件。
2、根据权利要求1所述的统计机器翻译中候选翻译模型生成方法,其特征在于,所述的分类或聚类方法为k均值聚类法或k近邻分类法或最大熵分类法。
3、根据权利要求1所述的统计机器翻译中候选翻译模型生成方法,其特征在于,在所述的步骤103)中,所述子语料库建立索引,是指:
子语料库中每个翻译句对的源语言句子建立索引,所述索引包括翻译句对的源语言句子所在子语料库的信息。
4、根据权利要求3所述的统计机器翻译中候选翻译模型生成方法,其特征在于,采用Lemur信息检索工具建立索引。
5、一种统计机器翻译中利用候选翻译模型进行翻译的方法,包括以下步骤:
步骤200)、采用权利要求1-4之一的统计机器翻译中候选翻译模型生成方法生成候选翻译模型以及各个子语料库的语料库索引文件;
步骤201)、输入待翻译文本,从所述语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
步骤202)、根据所述检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
步骤203)、根据所述最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。
6、根据权利要求5所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,在所述的步骤201)中,所述从语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,是指:
采用相似度检索方法计算所述的待翻译文本与语料索引文件中所有索引文档之间的相似度,然后根据相似度大小为所有的计算结果按从大到小依次排序,选择相似度最高的至少一个句子,所选择的句子包括该句子所在子语料库的信息。
7、根据权利要求6所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,所述相似度检索方法为向量空间模型及TF-IDF相似度计算方法。
8、根据权利要求5所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,在所述的步骤202)中,所述从所有的候选翻译模型中选择最终翻译模型,是指:
设定选择策略,根据选择策略从所有的候选翻译模型中选择一个候选翻译模型或几个候选翻译模型的组合作为所述的最终翻译模型。
9、根据权利要求8所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,所述的选择策略为根据同一子语料库中所包含相似句子的个数确定候选翻译模型,或结合相似度的数值来确定候选翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710099724.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:玻璃中氟离子含量的测量方法
- 下一篇:熔炉智能控制系统和方法